Время Валеры

Начал ходить на групповые занятия по джиу-джитсу в дополнение к частным урокам.

В партнёры для отработки выбрал себе самого здорового мужика, Оливера — 1.88 ростом, 115 кг весом.

Чуть позже начали вдвоём ходить к тренеру на персональные тренировки.

Из интересного: самый здоровый мужик в школе по ММА оказался инвестбанкиром, работающим в Сити.

With a degree and then a master's in continental philosophy, my thesis was on Presocratic influence on Martin Heidegger's "Being and Time" – existentialism.

Вот так Хайдеггер и Сократ в очередной раз оказались в нашем чате

9😁227🔥61❤33👍17🎅5🎄4🗿4😱3

21.9K views09:31

Время Валеры

Сегодня провели первую ML Kata в рамках закрытия второго потока курса по МЛ Дизайну

- 6 команд по 3 человека
- 75 минут на решение одной задачи
- У всех одинаковый кейс: построить real-time fraud detection для PayFlow (100M транзакций/день)
- Структурированная канва с блоками: метрики, валидация, фичи, мониторинг, интеграция

Условия задачи:
* <200ms latency, 3000 TPS пиковая нагрузка
* 73 миллиарда записей за 2 года
* Жесткий дисбаланс классов (0.1% fraud)
* Метки приходят с задержкой 14 дней
* GDPR + требования к интерпретируемости

Что получилось: Три команды защитились, и каждая пришла к разному решению:
* Команда 1: консервативный подход с Random Forest и rule-based fallback
* Команда 2: фокус на temporal validation с окнами 12→15→17 месяцев
* Команда 3: Kafka + Spark Streaming с anomaly detection

Вывод: Даже с детальными подсказками и ограничениями команды находили разные trade-off’ы. Кто-то глубоко копал в валидацию, кто-то — в архитектуру, кто-то — в метрики.

Доработать:
- 75 минут (без жестких рельс) оказалось мало — никто не успел заполнить все блоки
- Команды забывали про системные метрики (latency, SLA)
- Нужно давать более жесткие рельсы, чтобы было легче сравнивать
- Закладывать больше времени

Что Вышло хорошо: Живое обсуждение после защит. Валидация, метрики, trade-off между количеством фичей и размером выборки

Планируем повторить, возможно, в формате стрима с переключением между комнатами, что-бы подглядывать, как команды работают в процессе, а затем сравнивать их решение и обсуждать вопросы со стороны

В целом, если найти спонсора, может получиться хороший соревновательный формат внутри корпораций/между корпорациями

3🔥295❤70👍60💩3🎄2❤‍🔥1👏1👨‍💻1🤪1

26.3K viewsedited 18:13

Время Валеры

Компания по производству газировки, в которую я инвестировал — Gunna — перешла под внешнее управление and have marked down the company's share price to £0

Жаль, конечно, 10 фунтов, но ещё больше жаль вечной скидки в 25% как инвестору; возможно, эта скидка их и подвела.

Вряд-ли же потому, что они перестали выпускать лимонад Muscovite, заменив медведя, на осла Miss Mojita

1😁224🤡17❤14🤣8💔6🎄4🤮1💯1🤗1

25.8K views20:37

Время Валеры

Не перестает удивлять и где-то даже шокировать отношение инженеров к своему труду и современным инструментам.

Случай из практики. Код на спарке месяц не может отработать, уходит в тайм-аут, поэтому перешли на недели.
Смотрю на код, вижу, что это мешанина адхоков на 700+ строк, которая явно не проходила через код-ассистент.

То есть, казалось, то, что точно должно сработать.
Прогоняю базовый скан — результат.

Expected Overall Speedup: 5-10x (conservative estimate)

Альтернатива:
# Minimal Patch: Replace NOT IN with LEFT ANTI JOIN

Expected Speedup: 3-5x on bottleneck queries
Time to Implement: 10 minutes
Risk Level: LOW

Пришлось ввести новое правило:

1) Если есть код, который явно не проходил проверку через ассистента и занимает много времени (а такое обычно легко определить), мы должны прогнать его через ассистента, чтобы переписать код, выявить и приоритизировать узкие места, а также оценить общий прирост скорости и прирост по каждому узкому месту.
2) Затем попросить ассистента разложить изменения по узким местам, внедрять их по одному и тестировать на:
a) воспроизводимость результата;
b) оптимизацию

Думаю пора вводить следующее правило:
Мыть руки перед едой

19😁385👍107❤39🔥8😭5✍3🤡3😐2🎄2

50.6K viewsedited 11:27

Время Валеры

По следам предыдущего поста:

Prior to SQL optimisation - 108.238 minutes to complete

Post-optimisation - 14.322 minutes.

3🔥127🤡33😁32👏14❤8😱5😢2🎄1

22.9K views07:42

Время Валеры

MACHINE LEARNING — рекомендуем крупнейший обучающий канал про ИИ и машинное обучение.

С помощью понятных картинок и коротких видео авторы объсняют сложные концепции и учат работать с продвинутыми ИИ‑агентами и топовыми LLM-моделями.

А здесь мы собрали целую мл-папку.

🔝 А здесь мы собрали целый кладезь полезных ИИ ресурсов для прокачки навыков.

Подпишитесь, чтобы ничего не пропустить: t.me/ai_machinelearning_big_data

4😁111👍71❤67🤡37🥴30💩8🔥7😭4

25.1K views07:19

Время Валеры

Забавно, что outage Cloudflare был из-за SQL.

X (formerly Twitter)

swyx 🇸🇬 (@swyx) on X

cloudflare outage was due to one bad SQL statement that baked in an assumption it shouldnt have

can you spot the bug here? no. because SQL does not Make Wrong Code Look Wrong.

sometimes i wonder how many SEVs, performance issues and privacy leaks happen…

😁101😱8❤5🤡4👀3🗿3

28.5K views13:57

Время Валеры

Революционный стартап о думающих машинах выпустил ещё одну статью о том, как максимально эффективно обучать модель поменьше, используя знания из модели побольше.

Забавно, что Мира Мурати в первую очередь продакт (судя по опыту, но продукта что-то пока не видно.

On-Policy Distillation
В целом-то неплохо, на уровне аспирантов физтеха

Thinking Machines Lab

On-Policy Distillation

On-policy, dense supervision is a useful tool for distillation

1😁125👾11❤7💅7👻4🤡2

37.4K views21:36

Время Валеры

Мой любимый СТО Алексей Гусаков, который жмет от груди 195 кг, недавно занявший с командой Яндекса 3-е место на 1/4 ICPC вне конкурса) и товарищи собираются 11 декабря на ML Global Recap.

Онлайн и физически, чтобы обсудить свои и чужие выступления на NeurIPS, RecSys, ICLR и ряде других конференций, а с ними и текущие тренды в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.

Yandex ML Global Recal'25

Встреча Яндекса для ML-сообщества 11 декабря 2025

2🤡142❤67🔥22💩14👍11👎4😁2💋2👏1

35.2K views16:54

Время Валеры

Если верить анализу от Granola, то этот год прошёл для меня под знаком абсурда.

2🤔72😁42❤17🌚5🤝5🤡4💯2😭1

28.3K views11:19

Время Валеры

Forwarded from partially unsupervised

Классический ML был довольно творческой штукой. Придумать хитрую фичу из сырых данных, нашаманить нестандартную аугментацию, собрать гибрид из знакомых блоков. Нестандартные подходы часто вознаграждались.

С AI agents всё строго наоборот: нужно оставаться ближе к канону.

Да, при должно усердии можно заставить агента делать любые причуды. Хочешь промпты на сербохорватском? Пожалуйста. Свой формат tool calls? Не проблема, как-то будет работать. Но если Claude обучен на миллионах траекторий Claude Code, то каждое отклонение от их формата - это как плыть против течения. Можно, но зачем тратить ресурсы на адаптацию к причудам? You can't fight ~~gravity~~ gradient descent.

Потому, хоть и хочется иногда переизобрести велосипед, для большинства задач лучшая стратегия - разбираться, как устроены оригинальные scaffolding, читать рекомендации от провайдера и не выпендриваться.

54❤133😢70💯26👍19🔥7😭5🫡5🥰4👎1😁1

23.9K views16:28

Время Валеры

7 лет назад я читал курс по прикладному машинному обучению совместно с топ-2 Каггла, Пашей Плесковым, в Иннополисе.

Там мы познакомились с классными ребятами из EORA, включая Рому Доронина, и Рома попросил меня выступить перед студентами (другими), рассказать про МЛ и Большие Данные.

В Иннополисе тех времен (возможно, и сейчас) был мем про тапочки. Каждому студенту выдавали теплые тапочки, корпуса были связаны переходами, и поэтому все ходили в тапочках.

Собственно, на эту встречу я и пришел в тапочках, рассказал, что хотел, а потом оказалось, что это записали и выложили на Ютуб.
Кто-то из комментаторов возмущался, что, мол, спикер как будто в тапочках спустился рассказать, не уважает зрителей на Ютубе!

В апреле этого года я снова увиделся с Ромой, как с родным, в Дубае. Рома встретил меня на Кадиллаке и отвёз в гости, где мы обсудили многое, в том числе их с Дороничевым (оцените дистанцию Левенштейна) стартап https://bioptic.io/.

А теперь Рома запустил канал — https://t.me/doronin_aiforfriends — присмотритесь.

bioptic.io

BIOPTIC - AI Engine for Molecular Discovery

Anticipatory AI Intelligence for Pharma

❤115👍35🔥23😁20🥴11👎7🤡5🥰2👏1

23.2K views07:30

Время Валеры

Почти закончен перевод нашей книги на русский язык.

Уже доступен предзаказ, сама книга будет в продаже с 26 января.

Предзаказ - промокод на 35%

2👏220🔥132👍49❤29😱12😁5🎉5🌚2🏆2🕊1

34K views10:08

Время Валеры

Недавно обсуждали дизайн рекламной системы (реальной), и разговор зашёл о том, где и как хранить векторы для айтемов и пользователей. На моё утверждение, что можно всё хранить на одной машине, возразили, что будет примерно 100-200 млн векторов, которые нужно хранить постоянно (пользователей можно считать на лету). К счастью, я как раз недавно прочитал ScaNN (Scalable Nearest Neighbors) от Google Research.

У ScaNN два плюса:
1) Эффективная квантизация через кодовые книги (ну это у многих).
2) Сжатие не просто ради сжатия, а минимизация ошибки в первую очередь в направлении вектора; ошибка, уводящая вбок, менее страшна.

The innovation of ScaNN is Anisotropic Vector Quantization. It recognizes that not all geometric errors are created equal. An error "sideways" (orthogonal) hurts your search accuracy much less than an error "lengthwise" (parallel).

Если взять эмбеддинг OpenAI (Ada-002) размерностью 1536, он будет весить 6 КБ. 100 млн таких эмбеддингов будут весить 600 ГБ — многовато.

Если его сжать через CodeBook — стандартно в 64 субпространства code book — он будет весить 64 байта. 100 млн таких эмбеддингов будут весить 6 ГБ.

Задача решена.
#SystemDesign

research.google

Announcing ScaNN: Efficient Vector Similarity Search

Posted by Philip Sun, Software Engineer, Google Research Suppose one wants to search through a large dataset of literary works using queries that r...

2❤152👍78🔥40👏9🤔8💅7

23.5K viewsedited 08:41

Время Валеры

Хороший пример того, как можно торговаться на executive pay package.

Напоминает чем то примеры из книги: The Engineering Executive's Primer: Impactful Technical Leadership

"Can't increase cash comp before Series B."
“All execs get $250K max. No exception.”

She asked for 2% of ARR over $10M instead.

The CEO called it "brilliant."

When we hit $30M, that's $400K extra. In cash. Not equity.

1/ Best cash alternatives when startups are tight:

• Revenue / Profit Sharing: 2% of ARR (worth $380K at target)
• Milestone Triggers: $100K at product launch
• Funding Bonuses: $150K when Series B closes
• Customer Acquisition: $10K per enterprise client
• Post-Funding Guarantees: Base jumps $50K after raise

"All executives get the same base. Board policy."

So another exec negotiated what others didn't:
$25K childcare benefit
$75K travel package
$50K housing allowance
$65K executive MBA funding

Same base. $215K more total comp.

2/ Creative comp packages others never ask for:

• Childcare subsidies ($25K-$50K annually)
• Housing/relocation stipends (without actual moving)
• Education funding ($65K for executive programs)
• Premium travel policy (business class = $40K value)
• Coaching/professional development ($25K annually)

And sometimes the meat and potatoes annual bonus can do more for you:

3/ Annual bonus nuances most miss:

• Accelerators (1.5x bonus target if >$10m ARR)
• Quarterly bonus payouts
• Guarantees (Minimum 75% bonus target payout)

Even at early startups, you can add $200k+ to cash compensation

2❤39🤪28👍6🔥5

16.6K views10:18

Время Валеры

Вышла третья часть разговора между мной и Витей Кантором, в этот раз говорили про спорт

YouTube

Как спорт влияет на карьеру. Валерий Бабушкин 3 часть

В третьей части подкаста с Валерием Бабушкиным разговор вышел за рамки карьеры и машинного обучения.

На этот раз Виктор и Валерий обсудили спорт и его роль в жизни специалиста, работающего в высокоинтеллектуальной и конкурентной среде.

Как спортивный опыт…

21🔥106👍20⚡14❤14🤡6🎄6💩4👎3🤮2👀2🤗2

13.3K views16:42

Время Валеры

Игорь поделился замечательным Эссе - Capital in the 22nd Century
Кратко: Как будет развиваться мир, если капитал станет 100% заменой труда

As many noted at the time, this is probably an incorrect account of the past. Labor and capital complement each other. Wealthy people can keep accumulating capital, but hammers grow less valuable when there aren’t enough hands to use all of them, and hands grow more valuable when hammers are plentiful. Capital accumulation thus lowers interest rates (aka income per unit of capital) and raises wages (income per unit of labor). This effect has tended to be strong enough that, though inequality may have grown for other reasons, inequality from capital accumulation alone has been self-correcting.
But in a world of advanced robotics and AI, this correction mechanism will break. That is, though Piketty was wrong about the past, he will probably be right about the future.

Забавно, что несмотря на общую ошибочность (скорее всего) в своей аналитике, Thomas Piketty вполне мог описывать мир будущего

The world Piketty describes may not have existed in the past, but we will wake up in it one day; and he has thought more than most about how it might unfold, and how to tax and regulate it so that inequality stays at least somewhat contained.

Еще из интересного - ввести для людей обязательный минимум на траты, что бы на накапливали капитал как суслики. Ведь кто раньше накопил, тот будет бесконечно впереди

Third, by imposing on individuals the same regulation already imposed on foundations to prevent them from growing too quickly: a spending requirement. A minimum spending rate—either on an annual basis or, by capping inheritances, over a lifetime—would prevent those inclined to adopt high saving rates from outgrowing the rest.

Рекомендую

Сиолошная

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

❤37🔥11😁7👀7🤣6🍌4

11.4K viewsedited 19:25

About

Blog

Apps

Platform