Время Валеры
28.9K subscribers
189 photos
6 videos
1 file
398 links
Мне платят за то, что я говорю другим людям что им делать.
Автор книги https://www.manning.com/books/machine-learning-system-design
https://venheads.io
https://www.linkedin.com/in/venheads
Download Telegram
На днях в open source выпустили распределённую файловую систему, которая рассчитана на эксабайты (тысячи петабайт).

Сделали это чуваки из XTX, мощные трейдеры, которые известны двумя вещами: тем, что у них (по крайней мере недавно) был топ-3 кластер по количеству ГПУ, и тем, что их основатель, Александр Герко, так любит Лондон, что каждый год платит 500+ млн фунтов налогов на доходы как физическое лицо.

Из интересного (они выделили 9 пунктов, но только 5 мне кажутся отличительными)

Has no single point of failure in its metadata services.
Is hardware agnostic and uses TCP/IP to communicate.
Utilizes different types of storage (such as flash vs. hard disks) cost effectively.
Exposes read/write access through its own API over TCP and UDP, and a Linux kernel filesystem module.
Requires no external service and has a minimal set of build dependencies

Начали работы над системой в 2022 году, в середине 2024 мигрировали весь ML

TernFS' metadata is split into 256 logical shards. Shards never communicate with each other. This is a general principle in TernFS: Splitting the metadata into 256 shards from the get-go simplifies the design, given that horizontal scaling of metadata requires no rebalancing, just the addition of more metadata servers.

Ну и заодно свой формат сериализации разработали, чтобы разработчики передвигали не json, thrift, а что-то там свое.

Еще из интересного - обсуждение когда нужно зеркалить файлы, а когда делать Reed-Solomon coding.

Рекомендую почитать
1114🔥65👍3014🆒3
В качалке, где я занимаюсь, есть администратор.
Он полупрофессионально бегает марафоны.

Недавно он подошёл ко мне и заговорщически спросил: «Ты же из России?»
На что получил утвердительный кивок.
— А ты слышал, — продолжил он, — про мм-м-м--м-м-м-м-м-м-м-
— Мельдоний?
— Да!

Ясное дело, слышал, базовая добавка, которая делает цикл Кребса чуть более эффективным. И ещё с советских времён использовалась наряду с янтарной кислотой и прочими штуками, а лет 10 назад была объявлена страшным тайным допингом из СССР, и Шарапову за этот мельдоний долго полоскали.

- Привезти?
- Да!

Через пару дней подходит и спрашивает: а это таблетки или уколы?
- Не переживай, таблетки.

Сегодня передал ему две пачки Милдроната. Радости человека не было предела, теперь-то он от всех убежит. Кроме себя

Думаю, надо открывать бизнес и начать продавать секретные батончики из СССР с кровью, которые повышают перфоманс: Гематоген.
3😁1.14K121🫡43👍22💯15🤣12👏3💩3🔥2🤔1
Закончил читать второй поток МЛ Систем дизайна.

Вышло примерно 50 часов контента (плюс ещё 8 часов уйдёт на ревью финального дизайн-документа от одной из групп), и в связи с тем, что курс идёт вживую, он меняется в зависимости от аудитории и запросов.

Третий и планируемый последний запуск пройдёт на неделе с 10 ноября.
6👍94🔥27🤣14🤡127👎4👏3🤩3👌1🌚1
Сегодня, в 15:00 по Лондону, устроим стрим с Михаилом Неверовым, директором по развитию искусственного интеллекта Х5.

Сначала обсудим с ним, как Gen AI повлиял (или нет) на производительность труда, а затем откроем Твиттер, будем читать и обсуждать.


Вопросы задавать здесь же
12🔥94🍾19💩85👍3👏3😱32😁2👎1🫡1
Live stream started
Live stream finished (1 hour)
Серфил LI и наткнулся на три поста бывших коллег из блока о том, что

we have received its MiCA license, a major step that allows us to provide crypto services across all 30

Теперь можно покупать и продавать токенизированные ETF/акции. То есть настоящие мы тебе купить не дадим, но купленные кем-то и выпущенные под них токены — да.

For the first time, tokenized U.S. stocks and ETFs are available directly

Это, кстати, продолжение интересного тренда: US Treasuries начинают поддерживаться через стейблкоины (уже примерно 250 млрд ликвидности влито таким образом), что может серьёзно укрепить глобальную доминацию доллара. Какая ирония!

Теперь то же самое происходит со стоками и ETF, ждём роста всего рынка.

Продолжая сёрфить, понял, что, судя по всему, многие смотрят в одну сторону, потому что в @Wallet из недавнего поста тоже стали доступны токенизированные Stocks & ETFs.

Зашёл в криптокошелёк, а там:
United Kingdom is not supported by Crypto Wallet. We apologize for the inconvenience.

Спасибо пацаны, выручили, жаль только, что не добавили цитату Боба Марли: No woman, No cry.

С Озоном и книгой сработало, поэтому пишу чувакам из @Wallet : поправьте, чтобы хотя бы можно было документы прикладывать и получить разрешение, а не просто по локации/номеру банить. Все остальное то есть, чтобы использовать

Посвящаю этот пост Игорю

UPD: Появилась идея выпустить бонды на BTC Игоря и, понятное дело, токенизировать
5😁90👍3720💩9🤡31💔1
Начал ходить на групповые занятия по джиу-джитсу в дополнение к частным урокам.

В партнёры для отработки выбрал себе самого здорового мужика, Оливера — 1.88 ростом, 115 кг весом.

Чуть позже начали вдвоём ходить к тренеру на персональные тренировки.

Из интересного: самый здоровый мужик в школе по ММА оказался инвестбанкиром, работающим в Сити.

With a degree and then a master's in continental philosophy, my thesis was on Presocratic influence on Martin Heidegger's "Being and Time" – existentialism.

Вот так Хайдеггер и Сократ в очередной раз оказались в нашем чате
9😁227🔥6133👍17🎅5🎄4🗿4😱3
Сегодня провели первую ML Kata в рамках закрытия второго потока курса по МЛ Дизайну

- 6 команд по 3 человека
- 75 минут на решение одной задачи
- У всех одинаковый кейс: построить real-time fraud detection для PayFlow (100M транзакций/день)
- Структурированная канва с блоками: метрики, валидация, фичи, мониторинг, интеграция

Условия задачи:
* <200ms latency, 3000 TPS пиковая нагрузка
* 73 миллиарда записей за 2 года
* Жесткий дисбаланс классов (0.1% fraud)
* Метки приходят с задержкой 14 дней
* GDPR + требования к интерпретируемости

Что получилось: Три команды защитились, и каждая пришла к разному решению:
* Команда 1: консервативный подход с Random Forest и rule-based fallback
* Команда 2: фокус на temporal validation с окнами 12→15→17 месяцев
* Команда 3: Kafka + Spark Streaming с anomaly detection

Вывод: Даже с детальными подсказками и ограничениями команды находили разные trade-off’ы. Кто-то глубоко копал в валидацию, кто-то — в архитектуру, кто-то — в метрики.

Доработать:
- 75 минут (без жестких рельс) оказалось мало — никто не успел заполнить все блоки
- Команды забывали про системные метрики (latency, SLA)
- Нужно давать более жесткие рельсы, чтобы было легче сравнивать
- Закладывать больше времени

Что Вышло хорошо
: Живое обсуждение после защит. Валидация, метрики, trade-off между количеством фичей и размером выборки

Планируем повторить, возможно, в формате стрима с переключением между комнатами, что-бы подглядывать, как команды работают в процессе, а затем сравнивать их решение и обсуждать вопросы со стороны

В целом, если найти спонсора, может получиться хороший соревновательный формат внутри корпораций/между корпорациями
3🔥29571👍60💩3🎄2❤‍🔥1👏1👨‍💻1🤪1
Компания по производству газировки, в которую я инвестировал — Gunna — перешла под внешнее управление and have marked down the company's share price to £0

Жаль, конечно, 10 фунтов, но ещё больше жаль вечной скидки в 25% как инвестору; возможно, эта скидка их и подвела.

Вряд-ли же потому, что они перестали выпускать лимонад Muscovite, заменив медведя, на осла Miss Mojita
1😁225🤡1714🤣8💔6🎄4🤮1💯1🤗1
Не перестает удивлять и где-то даже шокировать отношение инженеров к своему труду и современным инструментам.

Случай из практики. Код на спарке месяц не может отработать, уходит в тайм-аут, поэтому перешли на недели.
Смотрю на код, вижу, что это мешанина адхоков на 700+ строк, которая явно не проходила через код-ассистент.

То есть, казалось, то, что точно должно сработать.
Прогоняю базовый скан — результат.

Expected Overall Speedup: 5-10x (conservative estimate)

Альтернатива:
# Minimal Patch: Replace NOT IN with LEFT ANTI JOIN

Expected Speedup: 3-5x on bottleneck queries
Time to Implement: 10 minutes
Risk Level: LOW


Пришлось ввести новое правило:

1) Если есть код, который явно не проходил проверку через ассистента и занимает много времени (а такое обычно легко определить), мы должны прогнать его через ассистента, чтобы переписать код, выявить и приоритизировать узкие места, а также оценить общий прирост скорости и прирост по каждому узкому месту.
2) Затем попросить ассистента разложить изменения по узким местам, внедрять их по одному и тестировать на:
a) воспроизводимость результата;
b) оптимизацию

Думаю пора вводить следующее правило:
Мыть руки перед едой
19😁386👍10739🔥8😭53🤡3😐2🎄2
По следам предыдущего поста:

Prior to SQL optimisation - 108.238 minutes to complete

Post-optimisation - 14.322 minutes.
3🔥128🤡33😁32👏148😱5😢2🎄1
MACHINE LEARNING — рекомендуем крупнейший обучающий канал про ИИ и машинное обучение.

С помощью понятных картинок и коротких видео  авторы объсняют сложные концепции и учат работать с продвинутыми ИИ‑агентами и топовыми LLM-моделями.

А здесь мы собрали целую мл-папку.

🔝 А здесь мы собрали целый кладезь полезных ИИ ресурсов для прокачки навыков.

Подпишитесь, чтобы ничего не пропустить: t.me/ai_machinelearning_big_data
4😁111👍7167🤡37🥴30💩8🔥7😭4
Революционный стартап о думающих машинах выпустил ещё одну статью о том, как максимально эффективно обучать модель поменьше, используя знания из модели побольше.

Забавно, что Мира Мурати в первую очередь продакт (судя по опыту, но продукта что-то пока не видно.

On-Policy Distillation
В целом-то неплохо, на уровне аспирантов физтеха
1😁126👾117💅7👻4🤡2
Мой любимый СТО Алексей Гусаков, который жмет от груди 195 кг, недавно занявший с командой Яндекса 3-е место на 1/4 ICPC вне конкурса) и товарищи собираются 11 декабря на ML Global Recap.

Онлайн и физически, чтобы обсудить свои и чужие выступления на NeurIPS, RecSys, ICLR и ряде других конференций, а с ними и текущие тренды в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.
2🤡14268🔥22💩14👍11👎4😁2💋2👏1
Если верить анализу от Granola, то этот год прошёл для меня под знаком абсурда.
2🤔73😁4217🌚5🤝5🤡4💯2😭1