На днях в open source выпустили распределённую файловую систему, которая рассчитана на эксабайты (тысячи петабайт).
Сделали это чуваки из XTX, мощные трейдеры, которые известны двумя вещами: тем, что у них (по крайней мере недавно) был топ-3 кластер по количеству ГПУ, и тем, что их основатель, Александр Герко, так любит Лондон, что каждый год платит 500+ млн фунтов налогов на доходы как физическое лицо.
Из интересного (они выделили 9 пунктов, но только 5 мне кажутся отличительными)
Has no single point of failure in its metadata services.
Is hardware agnostic and uses TCP/IP to communicate.
Utilizes different types of storage (such as flash vs. hard disks) cost effectively.
Exposes read/write access through its own API over TCP and UDP, and a Linux kernel filesystem module.
Requires no external service and has a minimal set of build dependencies
Начали работы над системой в 2022 году, в середине 2024 мигрировали весь ML
TernFS' metadata is split into 256 logical shards. Shards never communicate with each other. This is a general principle in TernFS: Splitting the metadata into 256 shards from the get-go simplifies the design, given that horizontal scaling of metadata requires no rebalancing, just the addition of more metadata servers.
Ну и заодно свой формат сериализации разработали, чтобы разработчики передвигали не json, thrift, а что-то там свое.
Еще из интересного - обсуждение когда нужно зеркалить файлы, а когда делать Reed-Solomon coding.
Рекомендую почитать
Сделали это чуваки из XTX, мощные трейдеры, которые известны двумя вещами: тем, что у них (по крайней мере недавно) был топ-3 кластер по количеству ГПУ, и тем, что их основатель, Александр Герко, так любит Лондон, что каждый год платит 500+ млн фунтов налогов на доходы как физическое лицо.
Из интересного (они выделили 9 пунктов, но только 5 мне кажутся отличительными)
Has no single point of failure in its metadata services.
Is hardware agnostic and uses TCP/IP to communicate.
Utilizes different types of storage (such as flash vs. hard disks) cost effectively.
Exposes read/write access through its own API over TCP and UDP, and a Linux kernel filesystem module.
Requires no external service and has a minimal set of build dependencies
Начали работы над системой в 2022 году, в середине 2024 мигрировали весь ML
TernFS' metadata is split into 256 logical shards. Shards never communicate with each other. This is a general principle in TernFS: Splitting the metadata into 256 shards from the get-go simplifies the design, given that horizontal scaling of metadata requires no rebalancing, just the addition of more metadata servers.
Ну и заодно свой формат сериализации разработали, чтобы разработчики передвигали не json, thrift, а что-то там свое.
Еще из интересного - обсуждение когда нужно зеркалить файлы, а когда делать Reed-Solomon coding.
Рекомендую почитать
Xtxmarkets
TernFS: an exabyte scale, multi-region distributed filesystem | XTX Tech Blog
XTX Markets is a leading algorithmic trading firm which uses state-of-the-art machine learning technology to produce price forecasts for over 50,000 financial instruments across equities, fixed income, currencies, commodities and crypto. It uses those forecasts…
1❤114🔥65👍30✍14🆒3
В качалке, где я занимаюсь, есть администратор.
Он полупрофессионально бегает марафоны.
Недавно он подошёл ко мне и заговорщически спросил: «Ты же из России?»
На что получил утвердительный кивок.
— А ты слышал, — продолжил он, — про мм-м-м--м-м-м-м-м-м-м-
— Мельдоний?
— Да!
Ясное дело, слышал, базовая добавка, которая делает цикл Кребса чуть более эффективным. И ещё с советских времён использовалась наряду с янтарной кислотой и прочими штуками, а лет 10 назад была объявлена страшным тайным допингом из СССР, и Шарапову за этот мельдоний долго полоскали.
- Привезти?
- Да!
Через пару дней подходит и спрашивает: а это таблетки или уколы?
- Не переживай, таблетки.
Сегодня передал ему две пачки Милдроната. Радости человека не было предела, теперь-то он от всех убежит. Кроме себя
Думаю, надо открывать бизнес и начать продавать секретные батончики из СССР с кровью, которые повышают перфоманс: Гематоген.
Он полупрофессионально бегает марафоны.
Недавно он подошёл ко мне и заговорщически спросил: «Ты же из России?»
На что получил утвердительный кивок.
— А ты слышал, — продолжил он, — про мм-м-м--м-м-м-м-м-м-м-
— Мельдоний?
— Да!
Ясное дело, слышал, базовая добавка, которая делает цикл Кребса чуть более эффективным. И ещё с советских времён использовалась наряду с янтарной кислотой и прочими штуками, а лет 10 назад была объявлена страшным тайным допингом из СССР, и Шарапову за этот мельдоний долго полоскали.
- Привезти?
- Да!
Через пару дней подходит и спрашивает: а это таблетки или уколы?
- Не переживай, таблетки.
Сегодня передал ему две пачки Милдроната. Радости человека не было предела, теперь-то он от всех убежит. Кроме себя
Думаю, надо открывать бизнес и начать продавать секретные батончики из СССР с кровью, которые повышают перфоманс: Гематоген.
3😁1.14K❤121🫡43👍22💯15🤣12👏3💩3🔥2🤔1
Закончил читать второй поток МЛ Систем дизайна.
Вышло примерно 50 часов контента (плюс ещё 8 часов уйдёт на ревью финального дизайн-документа от одной из групп), и в связи с тем, что курс идёт вживую, он меняется в зависимости от аудитории и запросов.
Третий и планируемый последний запуск пройдёт на неделе с 10 ноября.
Вышло примерно 50 часов контента (плюс ещё 8 часов уйдёт на ревью финального дизайн-документа от одной из групп), и в связи с тем, что курс идёт вживую, он меняется в зависимости от аудитории и запросов.
Третий и планируемый последний запуск пройдёт на неделе с 10 ноября.
karpov.courses
ML design
Karpov.Courses. Школа Data Science
6👍94🔥27🤣14🤡12❤7👎4👏3🤩3👌1🌚1
Сегодня, в 15:00 по Лондону, устроим стрим с Михаилом Неверовым, директором по развитию искусственного интеллекта Х5.
Сначала обсудим с ним, как Gen AI повлиял (или нет) на производительность труда, а затем откроем Твиттер, будем читать и обсуждать.
Вопросы задавать здесь же
Сначала обсудим с ним, как Gen AI повлиял (или нет) на производительность труда, а затем откроем Твиттер, будем читать и обсуждать.
Вопросы задавать здесь же
12🔥94🍾19💩8❤5👍3👏3😱3✍2😁2👎1🫡1
Серфил LI и наткнулся на три поста бывших коллег из блока о том, что
Теперь можно покупать и продавать токенизированные ETF/акции. То есть настоящие мы тебе купить не дадим, но купленные кем-то и выпущенные под них токены — да.
Это, кстати, продолжение интересного тренда: US Treasuries начинают поддерживаться через стейблкоины (уже примерно 250 млрд ликвидности влито таким образом), что может серьёзно укрепить глобальную доминацию доллара. Какая ирония!
Теперь то же самое происходит со стоками и ETF, ждём роста всего рынка.
Продолжая сёрфить, понял, что, судя по всему, многие смотрят в одну сторону, потому что в @Wallet из недавнего поста тоже стали доступны токенизированные Stocks & ETFs.
Зашёл в криптокошелёк, а там:
United Kingdom is not supported by Crypto Wallet. We apologize for the inconvenience.
Спасибо пацаны, выручили, жаль только, что не добавили цитату Боба Марли: No woman, No cry.
С Озоном и книгой сработало, поэтому пишу чувакам из @Wallet : поправьте, чтобы хотя бы можно было документы прикладывать и получить разрешение, а не просто по локации/номеру банить. Все остальное то есть, чтобы использовать
Посвящаю этот пост Игорю
UPD: Появилась идея выпустить бонды на BTC Игоря и, понятное дело, токенизировать
we have received its MiCA license, a major step that allows us to provide crypto services across all 30
Теперь можно покупать и продавать токенизированные ETF/акции. То есть настоящие мы тебе купить не дадим, но купленные кем-то и выпущенные под них токены — да.
For the first time, tokenized U.S. stocks and ETFs are available directly
Это, кстати, продолжение интересного тренда: US Treasuries начинают поддерживаться через стейблкоины (уже примерно 250 млрд ликвидности влито таким образом), что может серьёзно укрепить глобальную доминацию доллара. Какая ирония!
Теперь то же самое происходит со стоками и ETF, ждём роста всего рынка.
Продолжая сёрфить, понял, что, судя по всему, многие смотрят в одну сторону, потому что в @Wallet из недавнего поста тоже стали доступны токенизированные Stocks & ETFs.
Зашёл в криптокошелёк, а там:
United Kingdom is not supported by Crypto Wallet. We apologize for the inconvenience.
Спасибо пацаны, выручили, жаль только, что не добавили цитату Боба Марли: No woman, No cry.
С Озоном и книгой сработало, поэтому пишу чувакам из @Wallet : поправьте, чтобы хотя бы можно было документы прикладывать и получить разрешение, а не просто по локации/номеру банить. Все остальное то есть, чтобы использовать
Посвящаю этот пост Игорю
UPD: Появилась идея выпустить бонды на BTC Игоря и, понятное дело, токенизировать
5😁90👍37❤20💩9🤡3⚡1💔1
Начал ходить на групповые занятия по джиу-джитсу в дополнение к частным урокам.
В партнёры для отработки выбрал себе самого здорового мужика, Оливера — 1.88 ростом, 115 кг весом.
Чуть позже начали вдвоём ходить к тренеру на персональные тренировки.
Из интересного: самый здоровый мужик в школе по ММА оказался инвестбанкиром, работающим в Сити.
Вот так Хайдеггер и Сократ в очередной раз оказались в нашем чате
В партнёры для отработки выбрал себе самого здорового мужика, Оливера — 1.88 ростом, 115 кг весом.
Чуть позже начали вдвоём ходить к тренеру на персональные тренировки.
Из интересного: самый здоровый мужик в школе по ММА оказался инвестбанкиром, работающим в Сити.
With a degree and then a master's in continental philosophy, my thesis was on Presocratic influence on Martin Heidegger's "Being and Time" – existentialism.
Вот так Хайдеггер и Сократ в очередной раз оказались в нашем чате
9😁227🔥61❤33👍17🎅5🎄4🗿4😱3
Сегодня провели первую ML Kata в рамках закрытия второго потока курса по МЛ Дизайну
- 6 команд по 3 человека
- 75 минут на решение одной задачи
- У всех одинаковый кейс: построить real-time fraud detection для PayFlow (100M транзакций/день)
- Структурированная канва с блоками: метрики, валидация, фичи, мониторинг, интеграция
Условия задачи:
* <200ms latency, 3000 TPS пиковая нагрузка
* 73 миллиарда записей за 2 года
* Жесткий дисбаланс классов (0.1% fraud)
* Метки приходят с задержкой 14 дней
* GDPR + требования к интерпретируемости
Что получилось: Три команды защитились, и каждая пришла к разному решению:
* Команда 1: консервативный подход с Random Forest и rule-based fallback
* Команда 2: фокус на temporal validation с окнами 12→15→17 месяцев
* Команда 3: Kafka + Spark Streaming с anomaly detection
Вывод: Даже с детальными подсказками и ограничениями команды находили разные trade-off’ы. Кто-то глубоко копал в валидацию, кто-то — в архитектуру, кто-то — в метрики.
Доработать:
- 75 минут (без жестких рельс) оказалось мало — никто не успел заполнить все блоки
- Команды забывали про системные метрики (latency, SLA)
- Нужно давать более жесткие рельсы, чтобы было легче сравнивать
- Закладывать больше времени
Что Вышло хорошо: Живое обсуждение после защит. Валидация, метрики, trade-off между количеством фичей и размером выборки
Планируем повторить, возможно, в формате стрима с переключением между комнатами, что-бы подглядывать, как команды работают в процессе, а затем сравнивать их решение и обсуждать вопросы со стороны
В целом, если найти спонсора, может получиться хороший соревновательный формат внутри корпораций/между корпорациями
- 6 команд по 3 человека
- 75 минут на решение одной задачи
- У всех одинаковый кейс: построить real-time fraud detection для PayFlow (100M транзакций/день)
- Структурированная канва с блоками: метрики, валидация, фичи, мониторинг, интеграция
Условия задачи:
* <200ms latency, 3000 TPS пиковая нагрузка
* 73 миллиарда записей за 2 года
* Жесткий дисбаланс классов (0.1% fraud)
* Метки приходят с задержкой 14 дней
* GDPR + требования к интерпретируемости
Что получилось: Три команды защитились, и каждая пришла к разному решению:
* Команда 1: консервативный подход с Random Forest и rule-based fallback
* Команда 2: фокус на temporal validation с окнами 12→15→17 месяцев
* Команда 3: Kafka + Spark Streaming с anomaly detection
Вывод: Даже с детальными подсказками и ограничениями команды находили разные trade-off’ы. Кто-то глубоко копал в валидацию, кто-то — в архитектуру, кто-то — в метрики.
Доработать:
- 75 минут (без жестких рельс) оказалось мало — никто не успел заполнить все блоки
- Команды забывали про системные метрики (latency, SLA)
- Нужно давать более жесткие рельсы, чтобы было легче сравнивать
- Закладывать больше времени
Что Вышло хорошо: Живое обсуждение после защит. Валидация, метрики, trade-off между количеством фичей и размером выборки
Планируем повторить, возможно, в формате стрима с переключением между комнатами, что-бы подглядывать, как команды работают в процессе, а затем сравнивать их решение и обсуждать вопросы со стороны
В целом, если найти спонсора, может получиться хороший соревновательный формат внутри корпораций/между корпорациями
3🔥295❤71👍60💩3🎄2❤🔥1👏1👨💻1🤪1
Компания по производству газировки, в которую я инвестировал — Gunna — перешла под внешнее управление and have marked down the company's share price to £0
Жаль, конечно, 10 фунтов, но ещё больше жаль вечной скидки в 25% как инвестору; возможно, эта скидка их и подвела.
Вряд-ли же потому, что они перестали выпускать лимонад Muscovite, заменив медведя, на осла Miss Mojita
Жаль, конечно, 10 фунтов, но ещё больше жаль вечной скидки в 25% как инвестору; возможно, эта скидка их и подвела.
Вряд-ли же потому, что они перестали выпускать лимонад Muscovite, заменив медведя, на осла Miss Mojita
1😁225🤡17❤14🤣8💔6🎄4🤮1💯1🤗1
Не перестает удивлять и где-то даже шокировать отношение инженеров к своему труду и современным инструментам.
Случай из практики. Код на спарке месяц не может отработать, уходит в тайм-аут, поэтому перешли на недели.
Смотрю на код, вижу, что это мешанина адхоков на 700+ строк, которая явно не проходила через код-ассистент.
То есть, казалось, то, что точно должно сработать.
Прогоняю базовый скан — результат.
Expected Overall Speedup: 5-10x (conservative estimate)
Альтернатива:
# Minimal Patch: Replace NOT IN with LEFT ANTI JOIN
Expected Speedup: 3-5x on bottleneck queries
Time to Implement: 10 minutes
Risk Level: LOW
Пришлось ввести новое правило:
1) Если есть код, который явно не проходил проверку через ассистента и занимает много времени (а такое обычно легко определить), мы должны прогнать его через ассистента, чтобы переписать код, выявить и приоритизировать узкие места, а также оценить общий прирост скорости и прирост по каждому узкому месту.
2) Затем попросить ассистента разложить изменения по узким местам, внедрять их по одному и тестировать на:
a) воспроизводимость результата;
b) оптимизацию
Думаю пора вводить следующее правило:
Мыть руки перед едой
Случай из практики. Код на спарке месяц не может отработать, уходит в тайм-аут, поэтому перешли на недели.
Смотрю на код, вижу, что это мешанина адхоков на 700+ строк, которая явно не проходила через код-ассистент.
То есть, казалось, то, что точно должно сработать.
Прогоняю базовый скан — результат.
Expected Overall Speedup: 5-10x (conservative estimate)
Альтернатива:
# Minimal Patch: Replace NOT IN with LEFT ANTI JOIN
Expected Speedup: 3-5x on bottleneck queries
Time to Implement: 10 minutes
Risk Level: LOW
Пришлось ввести новое правило:
1) Если есть код, который явно не проходил проверку через ассистента и занимает много времени (а такое обычно легко определить), мы должны прогнать его через ассистента, чтобы переписать код, выявить и приоритизировать узкие места, а также оценить общий прирост скорости и прирост по каждому узкому месту.
2) Затем попросить ассистента разложить изменения по узким местам, внедрять их по одному и тестировать на:
a) воспроизводимость результата;
b) оптимизацию
Думаю пора вводить следующее правило:
Мыть руки перед едой
19😁386👍107❤39🔥8😭5✍3🤡3😐2🎄2
По следам предыдущего поста:
Prior to SQL optimisation - 108.238 minutes to complete
Post-optimisation - 14.322 minutes.
Prior to SQL optimisation - 108.238 minutes to complete
Post-optimisation - 14.322 minutes.
3🔥128🤡33😁32👏14❤8😱5😢2🎄1
MACHINE LEARNING — рекомендуем крупнейший обучающий канал про ИИ и машинное обучение.
С помощью понятных картинок и коротких видео авторы объсняют сложные концепции и учат работать с продвинутыми ИИ‑агентами и топовыми LLM-моделями.
А здесь мы собрали целую мл-папку.
🔝 А здесь мы собрали целый кладезь полезных ИИ ресурсов для прокачки навыков.
Подпишитесь, чтобы ничего не пропустить: t.me/ai_machinelearning_big_data
С помощью понятных картинок и коротких видео авторы объсняют сложные концепции и учат работать с продвинутыми ИИ‑агентами и топовыми LLM-моделями.
А здесь мы собрали целую мл-папку.
🔝 А здесь мы собрали целый кладезь полезных ИИ ресурсов для прокачки навыков.
Подпишитесь, чтобы ничего не пропустить: t.me/ai_machinelearning_big_data
4😁111👍71❤67🤡37🥴30💩8🔥7😭4
Забавно, что outage Cloudflare был из-за SQL.
X (formerly Twitter)
swyx 🇸🇬 (@swyx) on X
cloudflare outage was due to one bad SQL statement that baked in an assumption it shouldnt have
can you spot the bug here? no. because SQL does not Make Wrong Code Look Wrong.
sometimes i wonder how many SEVs, performance issues and privacy leaks happen…
can you spot the bug here? no. because SQL does not Make Wrong Code Look Wrong.
sometimes i wonder how many SEVs, performance issues and privacy leaks happen…
😁102😱8❤5🤡4👀3🗿3
Революционный стартап о думающих машинах выпустил ещё одну статью о том, как максимально эффективно обучать модель поменьше, используя знания из модели побольше.
Забавно, что Мира Мурати в первую очередь продакт (судя по опыту, но продукта что-то пока не видно.
On-Policy Distillation
В целом-то неплохо, на уровне аспирантов физтеха
Забавно, что Мира Мурати в первую очередь продакт (судя по опыту, но продукта что-то пока не видно.
On-Policy Distillation
В целом-то неплохо, на уровне аспирантов физтеха
Thinking Machines Lab
On-Policy Distillation
On-policy, dense supervision is a useful tool for distillation
1😁126👾11❤7💅7👻4🤡2
Мой любимый СТО Алексей Гусаков, который жмет от груди 195 кг, недавно занявший с командой Яндекса 3-е место на 1/4 ICPC вне конкурса) и товарищи собираются 11 декабря на ML Global Recap.
Онлайн и физически, чтобы обсудить свои и чужие выступления на NeurIPS, RecSys, ICLR и ряде других конференций, а с ними и текущие тренды в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.
Онлайн и физически, чтобы обсудить свои и чужие выступления на NeurIPS, RecSys, ICLR и ряде других конференций, а с ними и текущие тренды в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.
Yandex ML Global Recal'25
Встреча Яндекса для ML-сообщества 11 декабря 2025
2🤡142❤68🔥22💩14👍11👎4😁2💋2👏1