Начал ходить на групповые занятия по джиу-джитсу в дополнение к частным урокам.
В партнёры для отработки выбрал себе самого здорового мужика, Оливера — 1.88 ростом, 115 кг весом.
Чуть позже начали вдвоём ходить к тренеру на персональные тренировки.
Из интересного: самый здоровый мужик в школе по ММА оказался инвестбанкиром, работающим в Сити.
Вот так Хайдеггер и Сократ в очередной раз оказались в нашем чате
В партнёры для отработки выбрал себе самого здорового мужика, Оливера — 1.88 ростом, 115 кг весом.
Чуть позже начали вдвоём ходить к тренеру на персональные тренировки.
Из интересного: самый здоровый мужик в школе по ММА оказался инвестбанкиром, работающим в Сити.
With a degree and then a master's in continental philosophy, my thesis was on Presocratic influence on Martin Heidegger's "Being and Time" – existentialism.
Вот так Хайдеггер и Сократ в очередной раз оказались в нашем чате
9😁227🔥61❤33👍17🎅5🎄4🗿4😱3
Сегодня провели первую ML Kata в рамках закрытия второго потока курса по МЛ Дизайну
- 6 команд по 3 человека
- 75 минут на решение одной задачи
- У всех одинаковый кейс: построить real-time fraud detection для PayFlow (100M транзакций/день)
- Структурированная канва с блоками: метрики, валидация, фичи, мониторинг, интеграция
Условия задачи:
* <200ms latency, 3000 TPS пиковая нагрузка
* 73 миллиарда записей за 2 года
* Жесткий дисбаланс классов (0.1% fraud)
* Метки приходят с задержкой 14 дней
* GDPR + требования к интерпретируемости
Что получилось: Три команды защитились, и каждая пришла к разному решению:
* Команда 1: консервативный подход с Random Forest и rule-based fallback
* Команда 2: фокус на temporal validation с окнами 12→15→17 месяцев
* Команда 3: Kafka + Spark Streaming с anomaly detection
Вывод: Даже с детальными подсказками и ограничениями команды находили разные trade-off’ы. Кто-то глубоко копал в валидацию, кто-то — в архитектуру, кто-то — в метрики.
Доработать:
- 75 минут (без жестких рельс) оказалось мало — никто не успел заполнить все блоки
- Команды забывали про системные метрики (latency, SLA)
- Нужно давать более жесткие рельсы, чтобы было легче сравнивать
- Закладывать больше времени
Что Вышло хорошо: Живое обсуждение после защит. Валидация, метрики, trade-off между количеством фичей и размером выборки
Планируем повторить, возможно, в формате стрима с переключением между комнатами, что-бы подглядывать, как команды работают в процессе, а затем сравнивать их решение и обсуждать вопросы со стороны
В целом, если найти спонсора, может получиться хороший соревновательный формат внутри корпораций/между корпорациями
- 6 команд по 3 человека
- 75 минут на решение одной задачи
- У всех одинаковый кейс: построить real-time fraud detection для PayFlow (100M транзакций/день)
- Структурированная канва с блоками: метрики, валидация, фичи, мониторинг, интеграция
Условия задачи:
* <200ms latency, 3000 TPS пиковая нагрузка
* 73 миллиарда записей за 2 года
* Жесткий дисбаланс классов (0.1% fraud)
* Метки приходят с задержкой 14 дней
* GDPR + требования к интерпретируемости
Что получилось: Три команды защитились, и каждая пришла к разному решению:
* Команда 1: консервативный подход с Random Forest и rule-based fallback
* Команда 2: фокус на temporal validation с окнами 12→15→17 месяцев
* Команда 3: Kafka + Spark Streaming с anomaly detection
Вывод: Даже с детальными подсказками и ограничениями команды находили разные trade-off’ы. Кто-то глубоко копал в валидацию, кто-то — в архитектуру, кто-то — в метрики.
Доработать:
- 75 минут (без жестких рельс) оказалось мало — никто не успел заполнить все блоки
- Команды забывали про системные метрики (latency, SLA)
- Нужно давать более жесткие рельсы, чтобы было легче сравнивать
- Закладывать больше времени
Что Вышло хорошо: Живое обсуждение после защит. Валидация, метрики, trade-off между количеством фичей и размером выборки
Планируем повторить, возможно, в формате стрима с переключением между комнатами, что-бы подглядывать, как команды работают в процессе, а затем сравнивать их решение и обсуждать вопросы со стороны
В целом, если найти спонсора, может получиться хороший соревновательный формат внутри корпораций/между корпорациями
3🔥295❤70👍60💩3🎄2❤🔥1👏1👨💻1🤪1
Компания по производству газировки, в которую я инвестировал — Gunna — перешла под внешнее управление and have marked down the company's share price to £0
Жаль, конечно, 10 фунтов, но ещё больше жаль вечной скидки в 25% как инвестору; возможно, эта скидка их и подвела.
Вряд-ли же потому, что они перестали выпускать лимонад Muscovite, заменив медведя, на осла Miss Mojita
Жаль, конечно, 10 фунтов, но ещё больше жаль вечной скидки в 25% как инвестору; возможно, эта скидка их и подвела.
Вряд-ли же потому, что они перестали выпускать лимонад Muscovite, заменив медведя, на осла Miss Mojita
1😁224🤡17❤14🤣8💔6🎄4🤮1💯1🤗1
Не перестает удивлять и где-то даже шокировать отношение инженеров к своему труду и современным инструментам.
Случай из практики. Код на спарке месяц не может отработать, уходит в тайм-аут, поэтому перешли на недели.
Смотрю на код, вижу, что это мешанина адхоков на 700+ строк, которая явно не проходила через код-ассистент.
То есть, казалось, то, что точно должно сработать.
Прогоняю базовый скан — результат.
Expected Overall Speedup: 5-10x (conservative estimate)
Альтернатива:
# Minimal Patch: Replace NOT IN with LEFT ANTI JOIN
Expected Speedup: 3-5x on bottleneck queries
Time to Implement: 10 minutes
Risk Level: LOW
Пришлось ввести новое правило:
1) Если есть код, который явно не проходил проверку через ассистента и занимает много времени (а такое обычно легко определить), мы должны прогнать его через ассистента, чтобы переписать код, выявить и приоритизировать узкие места, а также оценить общий прирост скорости и прирост по каждому узкому месту.
2) Затем попросить ассистента разложить изменения по узким местам, внедрять их по одному и тестировать на:
a) воспроизводимость результата;
b) оптимизацию
Думаю пора вводить следующее правило:
Мыть руки перед едой
Случай из практики. Код на спарке месяц не может отработать, уходит в тайм-аут, поэтому перешли на недели.
Смотрю на код, вижу, что это мешанина адхоков на 700+ строк, которая явно не проходила через код-ассистент.
То есть, казалось, то, что точно должно сработать.
Прогоняю базовый скан — результат.
Expected Overall Speedup: 5-10x (conservative estimate)
Альтернатива:
# Minimal Patch: Replace NOT IN with LEFT ANTI JOIN
Expected Speedup: 3-5x on bottleneck queries
Time to Implement: 10 minutes
Risk Level: LOW
Пришлось ввести новое правило:
1) Если есть код, который явно не проходил проверку через ассистента и занимает много времени (а такое обычно легко определить), мы должны прогнать его через ассистента, чтобы переписать код, выявить и приоритизировать узкие места, а также оценить общий прирост скорости и прирост по каждому узкому месту.
2) Затем попросить ассистента разложить изменения по узким местам, внедрять их по одному и тестировать на:
a) воспроизводимость результата;
b) оптимизацию
Думаю пора вводить следующее правило:
Мыть руки перед едой
19😁385👍107❤39🔥8😭5✍3🤡3😐2🎄2
По следам предыдущего поста:
Prior to SQL optimisation - 108.238 minutes to complete
Post-optimisation - 14.322 minutes.
Prior to SQL optimisation - 108.238 minutes to complete
Post-optimisation - 14.322 minutes.
3🔥127🤡33😁32👏14❤8😱5😢2🎄1
MACHINE LEARNING — рекомендуем крупнейший обучающий канал про ИИ и машинное обучение.
С помощью понятных картинок и коротких видео авторы объсняют сложные концепции и учат работать с продвинутыми ИИ‑агентами и топовыми LLM-моделями.
А здесь мы собрали целую мл-папку.
🔝 А здесь мы собрали целый кладезь полезных ИИ ресурсов для прокачки навыков.
Подпишитесь, чтобы ничего не пропустить: t.me/ai_machinelearning_big_data
С помощью понятных картинок и коротких видео авторы объсняют сложные концепции и учат работать с продвинутыми ИИ‑агентами и топовыми LLM-моделями.
А здесь мы собрали целую мл-папку.
🔝 А здесь мы собрали целый кладезь полезных ИИ ресурсов для прокачки навыков.
Подпишитесь, чтобы ничего не пропустить: t.me/ai_machinelearning_big_data
4😁111👍71❤67🤡37🥴30💩8🔥7😭4
Забавно, что outage Cloudflare был из-за SQL.
X (formerly Twitter)
swyx 🇸🇬 (@swyx) on X
cloudflare outage was due to one bad SQL statement that baked in an assumption it shouldnt have
can you spot the bug here? no. because SQL does not Make Wrong Code Look Wrong.
sometimes i wonder how many SEVs, performance issues and privacy leaks happen…
can you spot the bug here? no. because SQL does not Make Wrong Code Look Wrong.
sometimes i wonder how many SEVs, performance issues and privacy leaks happen…
😁101😱8❤5🤡4👀3🗿3
Революционный стартап о думающих машинах выпустил ещё одну статью о том, как максимально эффективно обучать модель поменьше, используя знания из модели побольше.
Забавно, что Мира Мурати в первую очередь продакт (судя по опыту, но продукта что-то пока не видно.
On-Policy Distillation
В целом-то неплохо, на уровне аспирантов физтеха
Забавно, что Мира Мурати в первую очередь продакт (судя по опыту, но продукта что-то пока не видно.
On-Policy Distillation
В целом-то неплохо, на уровне аспирантов физтеха
Thinking Machines Lab
On-Policy Distillation
On-policy, dense supervision is a useful tool for distillation
1😁125👾11❤7💅7👻4🤡2
Мой любимый СТО Алексей Гусаков, который жмет от груди 195 кг, недавно занявший с командой Яндекса 3-е место на 1/4 ICPC вне конкурса) и товарищи собираются 11 декабря на ML Global Recap.
Онлайн и физически, чтобы обсудить свои и чужие выступления на NeurIPS, RecSys, ICLR и ряде других конференций, а с ними и текущие тренды в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.
Онлайн и физически, чтобы обсудить свои и чужие выступления на NeurIPS, RecSys, ICLR и ряде других конференций, а с ними и текущие тренды в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.
Yandex ML Global Recal'25
Встреча Яндекса для ML-сообщества 11 декабря 2025
2🤡142❤67🔥22💩14👍11👎4😁2💋2👏1
Forwarded from partially unsupervised
Классический ML был довольно творческой штукой. Придумать хитрую фичу из сырых данных, нашаманить нестандартную аугментацию, собрать гибрид из знакомых блоков. Нестандартные подходы часто вознаграждались.
С AI agents всё строго наоборот: нужно оставаться ближе к канону.
Да, при должно усердии можно заставить агента делать любые причуды. Хочешь промпты на сербохорватском? Пожалуйста. Свой формат tool calls? Не проблема, как-то будет работать. Но если Claude обучен на миллионах траекторий Claude Code, то каждое отклонение от их формата - это как плыть против течения. Можно, но зачем тратить ресурсы на адаптацию к причудам? You can't fightgravity gradient descent.
Потому, хоть и хочется иногда переизобрести велосипед, для большинства задач лучшая стратегия - разбираться, как устроены оригинальные scaffolding, читать рекомендации от провайдера и не выпендриваться.
С AI agents всё строго наоборот: нужно оставаться ближе к канону.
Да, при должно усердии можно заставить агента делать любые причуды. Хочешь промпты на сербохорватском? Пожалуйста. Свой формат tool calls? Не проблема, как-то будет работать. Но если Claude обучен на миллионах траекторий Claude Code, то каждое отклонение от их формата - это как плыть против течения. Можно, но зачем тратить ресурсы на адаптацию к причудам? You can't fight
Потому, хоть и хочется иногда переизобрести велосипед, для большинства задач лучшая стратегия - разбираться, как устроены оригинальные scaffolding, читать рекомендации от провайдера и не выпендриваться.
54❤133😢70💯26👍19🔥7😭5🫡5🥰4👎1😁1
7 лет назад я читал курс по прикладному машинному обучению совместно с топ-2 Каггла, Пашей Плесковым, в Иннополисе.
Там мы познакомились с классными ребятами из EORA, включая Рому Доронина, и Рома попросил меня выступить перед студентами (другими), рассказать про МЛ и Большие Данные.
В Иннополисе тех времен (возможно, и сейчас) был мем про тапочки. Каждому студенту выдавали теплые тапочки, корпуса были связаны переходами, и поэтому все ходили в тапочках.
Собственно, на эту встречу я и пришел в тапочках, рассказал, что хотел, а потом оказалось, что это записали и выложили на Ютуб.
Кто-то из комментаторов возмущался, что, мол, спикер как будто в тапочках спустился рассказать, не уважает зрителей на Ютубе!
В апреле этого года я снова увиделся с Ромой, как с родным, в Дубае. Рома встретил меня на Кадиллаке и отвёз в гости, где мы обсудили многое, в том числе их с Дороничевым (оцените дистанцию Левенштейна) стартап https://bioptic.io/.
А теперь Рома запустил канал — https://t.me/doronin_aiforfriends — присмотритесь.
Там мы познакомились с классными ребятами из EORA, включая Рому Доронина, и Рома попросил меня выступить перед студентами (другими), рассказать про МЛ и Большие Данные.
В Иннополисе тех времен (возможно, и сейчас) был мем про тапочки. Каждому студенту выдавали теплые тапочки, корпуса были связаны переходами, и поэтому все ходили в тапочках.
Собственно, на эту встречу я и пришел в тапочках, рассказал, что хотел, а потом оказалось, что это записали и выложили на Ютуб.
Кто-то из комментаторов возмущался, что, мол, спикер как будто в тапочках спустился рассказать, не уважает зрителей на Ютубе!
В апреле этого года я снова увиделся с Ромой, как с родным, в Дубае. Рома встретил меня на Кадиллаке и отвёз в гости, где мы обсудили многое, в том числе их с Дороничевым (оцените дистанцию Левенштейна) стартап https://bioptic.io/.
А теперь Рома запустил канал — https://t.me/doronin_aiforfriends — присмотритесь.
bioptic.io
BIOPTIC - AI Engine for Molecular Discovery
Anticipatory AI Intelligence for Pharma
❤115👍35🔥23😁20🥴11👎7🤡5🥰2👏1
Почти закончен перевод нашей книги на русский язык.
Уже доступен предзаказ, сама книга будет в продаже с 26 января.
Предзаказ - промокод на 35%
Уже доступен предзаказ, сама книга будет в продаже с 26 января.
Предзаказ - промокод на 35%
2👏220🔥132👍49❤29😱12😁5🎉5🌚2🏆2🕊1
Недавно обсуждали дизайн рекламной системы (реальной), и разговор зашёл о том, где и как хранить векторы для айтемов и пользователей. На моё утверждение, что можно всё хранить на одной машине, возразили, что будет примерно 100-200 млн векторов, которые нужно хранить постоянно (пользователей можно считать на лету). К счастью, я как раз недавно прочитал ScaNN (Scalable Nearest Neighbors) от Google Research.
У ScaNN два плюса:
1) Эффективная квантизация через кодовые книги (ну это у многих).
2) Сжатие не просто ради сжатия, а минимизация ошибки в первую очередь в направлении вектора; ошибка, уводящая вбок, менее страшна.
The innovation of ScaNN is Anisotropic Vector Quantization. It recognizes that not all geometric errors are created equal. An error "sideways" (orthogonal) hurts your search accuracy much less than an error "lengthwise" (parallel).
Если взять эмбеддинг OpenAI (Ada-002) размерностью 1536, он будет весить 6 КБ. 100 млн таких эмбеддингов будут весить 600 ГБ — многовато.
Если его сжать через CodeBook — стандартно в 64 субпространства code book — он будет весить 64 байта. 100 млн таких эмбеддингов будут весить 6 ГБ.
Задача решена.
#SystemDesign
У ScaNN два плюса:
1) Эффективная квантизация через кодовые книги (ну это у многих).
2) Сжатие не просто ради сжатия, а минимизация ошибки в первую очередь в направлении вектора; ошибка, уводящая вбок, менее страшна.
The innovation of ScaNN is Anisotropic Vector Quantization. It recognizes that not all geometric errors are created equal. An error "sideways" (orthogonal) hurts your search accuracy much less than an error "lengthwise" (parallel).
Если взять эмбеддинг OpenAI (Ada-002) размерностью 1536, он будет весить 6 КБ. 100 млн таких эмбеддингов будут весить 600 ГБ — многовато.
Если его сжать через CodeBook — стандартно в 64 субпространства code book — он будет весить 64 байта. 100 млн таких эмбеддингов будут весить 6 ГБ.
Задача решена.
#SystemDesign
research.google
Announcing ScaNN: Efficient Vector Similarity Search
Posted by Philip Sun, Software Engineer, Google Research Suppose one wants to search through a large dataset of literary works using queries that r...
2❤152👍78🔥40👏9🤔8💅7
Хороший пример того, как можно торговаться на executive pay package.
Напоминает чем то примеры из книги: The Engineering Executive's Primer: Impactful Technical Leadership
Напоминает чем то примеры из книги: The Engineering Executive's Primer: Impactful Technical Leadership
"Can't increase cash comp before Series B."
“All execs get $250K max. No exception.”
She asked for 2% of ARR over $10M instead.
The CEO called it "brilliant."
When we hit $30M, that's $400K extra. In cash. Not equity.
1/ Best cash alternatives when startups are tight:
• Revenue / Profit Sharing: 2% of ARR (worth $380K at target)
• Milestone Triggers: $100K at product launch
• Funding Bonuses: $150K when Series B closes
• Customer Acquisition: $10K per enterprise client
• Post-Funding Guarantees: Base jumps $50K after raise
"All executives get the same base. Board policy."
So another exec negotiated what others didn't:
$25K childcare benefit
$75K travel package
$50K housing allowance
$65K executive MBA funding
Same base. $215K more total comp.
2/ Creative comp packages others never ask for:
• Childcare subsidies ($25K-$50K annually)
• Housing/relocation stipends (without actual moving)
• Education funding ($65K for executive programs)
• Premium travel policy (business class = $40K value)
• Coaching/professional development ($25K annually)
And sometimes the meat and potatoes annual bonus can do more for you:
3/ Annual bonus nuances most miss:
• Accelerators (1.5x bonus target if >$10m ARR)
• Quarterly bonus payouts
• Guarantees (Minimum 75% bonus target payout)
Even at early startups, you can add $200k+ to cash compensation
2❤39🤪28👍6🔥5
Вышла третья часть разговора между мной и Витей Кантором, в этот раз говорили про спорт
YouTube
Как спорт влияет на карьеру. Валерий Бабушкин 3 часть
В третьей части подкаста с Валерием Бабушкиным разговор вышел за рамки карьеры и машинного обучения.
На этот раз Виктор и Валерий обсудили спорт и его роль в жизни специалиста, работающего в высокоинтеллектуальной и конкурентной среде.
Как спортивный опыт…
На этот раз Виктор и Валерий обсудили спорт и его роль в жизни специалиста, работающего в высокоинтеллектуальной и конкурентной среде.
Как спортивный опыт…
21🔥106👍20⚡14❤14🤡6🎄6💩4👎3🤮2👀2🤗2
Игорь поделился замечательным Эссе - Capital in the 22nd Century
Кратко: Как будет развиваться мир, если капитал станет 100% заменой труда
Забавно, что несмотря на общую ошибочность (скорее всего) в своей аналитике, Thomas Piketty вполне мог описывать мир будущего
Еще из интересного - ввести для людей обязательный минимум на траты, что бы на накапливали капитал как суслики. Ведь кто раньше накопил, тот будет бесконечно впереди
Рекомендую
Кратко: Как будет развиваться мир, если капитал станет 100% заменой труда
As many noted at the time, this is probably an incorrect account of the past. Labor and capital complement each other. Wealthy people can keep accumulating capital, but hammers grow less valuable when there aren’t enough hands to use all of them, and hands grow more valuable when hammers are plentiful. Capital accumulation thus lowers interest rates (aka income per unit of capital) and raises wages (income per unit of labor). This effect has tended to be strong enough that, though inequality may have grown for other reasons, inequality from capital accumulation alone has been self-correcting.
But in a world of advanced robotics and AI, this correction mechanism will break. That is, though Piketty was wrong about the past, he will probably be right about the future.
Забавно, что несмотря на общую ошибочность (скорее всего) в своей аналитике, Thomas Piketty вполне мог описывать мир будущего
The world Piketty describes may not have existed in the past, but we will wake up in it one day; and he has thought more than most about how it might unfold, and how to tax and regulate it so that inequality stays at least somewhat contained.
Еще из интересного - ввести для людей обязательный минимум на траты, что бы на накапливали капитал как суслики. Ведь кто раньше накопил, тот будет бесконечно впереди
Third, by imposing on individuals the same regulation already imposed on foundations to prevent them from growing too quickly: a spending requirement. A minimum spending rate—either on an annual basis or, by capping inheritances, over a lifetime—would prevent those inclined to adopt high saving rates from outgrowing the rest.
Рекомендую
Telegram
Сиолошная
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.
Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
❤37🔥11😁7👀7🤣6🍌4