Forwarded from Machine learning Interview
⚡ PyTorch представил **ZenFlow** — новый движок для обучения больших языковых моделей без «простоев» GPU.
В чём проблема?
Когда при обучении LLM данные и градиенты выгружаются на CPU (offloading), GPU часто простаивает: шина PCIe медленная, а вычисления на CPU ещё медленнее. В итоге шаг обучения может замедлиться в 10–15 раз.
Как решает ZenFlow:
- 🔄 Делит градиенты по важности: ключевые обновляются сразу на GPU, остальные — асинхронно на CPU.
- ⏱️ Все операции перекрываются: пока CPU считает и гоняет данные по PCIe, GPU продолжает работать.
- 🚀 Это снижает простои GPU на 85% и ускоряет обучение в среднем в 5 раз (по сравнению с DeepSpeed ZeRO-Offload).
- 📉 PCIe загружается в 2 раза меньше, а качество обучения моделей не падает.
Итог:
ZenFlow делает обучение LLM быстрее и эффективнее — теперь GPU работают почти без перерывов, а модели масштабируются без потери качества.
🟢 Подробности: https://pytorch.org/blog/zenflow-stall-free-offloading-engine-for-llm-training/
@machinelearning_interview
В чём проблема?
Когда при обучении LLM данные и градиенты выгружаются на CPU (offloading), GPU часто простаивает: шина PCIe медленная, а вычисления на CPU ещё медленнее. В итоге шаг обучения может замедлиться в 10–15 раз.
Как решает ZenFlow:
- 🔄 Делит градиенты по важности: ключевые обновляются сразу на GPU, остальные — асинхронно на CPU.
- ⏱️ Все операции перекрываются: пока CPU считает и гоняет данные по PCIe, GPU продолжает работать.
- 🚀 Это снижает простои GPU на 85% и ускоряет обучение в среднем в 5 раз (по сравнению с DeepSpeed ZeRO-Offload).
- 📉 PCIe загружается в 2 раза меньше, а качество обучения моделей не падает.
Итог:
ZenFlow делает обучение LLM быстрее и эффективнее — теперь GPU работают почти без перерывов, а модели масштабируются без потери качества.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104❤33🔥24👏3❤🔥1
Media is too big
VIEW IN TELEGRAM
Google начала масштабное развертывание диалогового поискового режима AI Mode для 180 стран. Ранее функция работала только в США, Великобритании и Индии. Пока доступен только английский язык, а страны Евросоюза в список не вошли из-за строгих правил в области данных и ИИ.
Вместе с географическим расширением Google представила первую агентную возможность в AI Mode. Теперь пользователи в США могут находить и бронировать столики в ресторанах через платформы OpenTable и Resy, прямо из поисковой выдачи. В будущем планируется добавить бронирование билетов и запись на услуги. Эта функция пока доступна только подписчикам платного тарифа Google AI Ultra.
9to5google.com
Компания анонсировала бета-версию платформы Game Worlds, на которой пользователи в реальном времени могут создавать и исследовать полностью сгенерированных персонажей, сюжеты и окружения.
Одновременно с этим Runway добавила в свой продукт Act-Two новую функцию «Voices». Она дает возможность подбирать и настраивать голоса для ИИ-персонажей.
Эти нововведения - часть стратегии компании по демократизации создания иммерсивного контента, делая его доступным для авторов без специальных навыков в программировании или анимации.
RunwayML в сети X
В сети появились фото тестовых образцов следующего поколения ИИ-архитектуры Jaguar Shores. Размер корпуса 92,5 мм на 92,5 мм, он включает 4 отдельных кристалла и 8 площадок памяти HBM, что явно указывает на платформу для высокопроизводительных вычислений.
Jaguar Shores станет первым стоечным решением Intel, планируется использование памяти HBM4 от SK Hynix и совместная работа с будущими процессорами Xeon Diamond Rapids.
wccftech.com
NVIDIA выпустила Streaming Sortformer - модель для диаризации речи, которая мгновенно определяет и маркирует участников разговора в реальном времени с низкой задержкой.
Модель оптимизирована для английского и китайского языков, способна отслеживать до 4 говорящих одновременно и предназначена для работы на GPU. По результатам тестов, Streaming Sortformer показывает более низкий уровень ошибок (DER) по сравнению с конкурирующими решениями.
Streaming Sortformer подойдет для применения в колл-центрах, при создании протоколов встреч и в интерактивных голосовых приложениях, где важно точно знать, кто, что и когда сказал. Модель доступна на Hugging Face.
developer.nvidia.com
AMD выпустила новейшую технологию масштабирования изображения FidelityFX Super Resolution 4 (FSR 4). Это часть обновления FidelityFX SDK 2.0, где AMD впервые внедряет алгоритм апскейлинга на основе машинного обучения для улучшения качества графики и производительности в играх.
По сравнению с предыдущей версией 3.1, FSR 4 показывает улучшения в детализации изображения и временной стабильности, а также снижает артефакты гостинга движущихся объектов. FSR 4 поддерживается только видеокартами AMD Radeon RX 9000 серии и выше на архитектуре RDNA 4 и требует DirectX 12. AMD также предоставила плагины FSR 4 для Unreal Engine версий 5.1–5.6.
gpuopen.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤39👍18🔥10❤🔥1🤔1👌1
🧠 Управление командой и проектами с помощью AI: от OKR до Performance Review.
Технические скиллы — это наш фундамент, но для роста до тимлида или руководителя нужно понимать язык бизнеса. Канал Саши (маркетинг дир в Yandex, Playrix, eBay) «Мальцев: Карьера. Маркетинг. Al» — это плейбук для IT-специалистов, которые хотят эффективно управлять командой, расти в карьере и получать признание за свою работу.
✔️ Какие управленческие фреймворки разбираются на практике:
• Постановка целей по OKR: Как самостоятельно сформулировать цели, которые будут высоко оценены вашим бизнесом и повысят шансы на премию. Подход, который помог Google стать Google.
• Подготовка к Performance Review: 4 неочевидные ошибки в Self-Review, которые мешают получить высокую оценку. Саша делится опытом участия в калибровках 137 сотрудников и объясняет, как связывать свой вклад с метриками бизнеса (выручка, LTV, EBITDA).
• Запуск крупных продуктов: Готовый шаблон для обоснования продуктовых запусков перед топ-менеджментом. Включает оценку ROI, расчет ресурсов и описание рисков.
• Работа с нечеткими задачами: Промпт для GPT, который на основе 4-х вводных помогает системно продумать подход к решению задачи от руководителя, выявить скрытые цели и определить метрики успеха.
Канал помогает IT-специалистам развить навыки, необходимые для карьерного роста в крупных технологических компаниях.
➡️ Подписаться: Мальцев: Карьера. Маркетинг. AI.
Технические скиллы — это наш фундамент, но для роста до тимлида или руководителя нужно понимать язык бизнеса. Канал Саши (маркетинг дир в Yandex, Playrix, eBay) «Мальцев: Карьера. Маркетинг. Al» — это плейбук для IT-специалистов, которые хотят эффективно управлять командой, расти в карьере и получать признание за свою работу.
✔️ Какие управленческие фреймворки разбираются на практике:
• Постановка целей по OKR: Как самостоятельно сформулировать цели, которые будут высоко оценены вашим бизнесом и повысят шансы на премию. Подход, который помог Google стать Google.
• Подготовка к Performance Review: 4 неочевидные ошибки в Self-Review, которые мешают получить высокую оценку. Саша делится опытом участия в калибровках 137 сотрудников и объясняет, как связывать свой вклад с метриками бизнеса (выручка, LTV, EBITDA).
• Запуск крупных продуктов: Готовый шаблон для обоснования продуктовых запусков перед топ-менеджментом. Включает оценку ROI, расчет ресурсов и описание рисков.
• Работа с нечеткими задачами: Промпт для GPT, который на основе 4-х вводных помогает системно продумать подход к решению задачи от руководителя, выявить скрытые цели и определить метрики успеха.
Канал помогает IT-специалистам развить навыки, необходимые для карьерного роста в крупных технологических компаниях.
➡️ Подписаться: Мальцев: Карьера. Маркетинг. AI.
❤20👍11🤣5🔥4😁3
Media is too big
VIEW IN TELEGRAM
🦾 Boston Dynamics показали впечатляющее видео своего робота.
Atlas получает изображение с камеры, данные о положении тела и текстовую команду. На основе этого модель генерирует плавные движения всего корпуса 30 раз в секунду.
Это не набор хрупких скриптов, а система, которая сама «думает», как выйти из ситуации.
Робот показывает, что может работать в реальном бардаке, где всё падает, двигается и мешает работе.
@ai_machinelearning_big_data
#ai #robots #BostonDynamics #atlas
Atlas получает изображение с камеры, данные о положении тела и текстовую команду. На основе этого модель генерирует плавные движения всего корпуса 30 раз в секунду.
Это не набор хрупких скриптов, а система, которая сама «думает», как выйти из ситуации.
Вместо того чтобы «прыгать» от точки к точке, система сразу строит короткую последовательность действий — примерно на полторы секунды вперёд.
Часть из них выполняется, а потом план обновляется, чтобы движения оставались точными и естественными.
Робот показывает, что может работать в реальном бардаке, где всё падает, двигается и мешает работе.
@ai_machinelearning_big_data
#ai #robots #BostonDynamics #atlas
🔥117❤40👍33😨7🦄2
Большие данные - это топливо для ИИ. Но как их использовать, чтобы не нарушить приватность, например датасета, где есть персональные данные?
Один из вариантов - метод дифференциально-приватного отбора. Он выбирает из огромного набора уникальные элементы так, чтобы нельзя было соотнести их с конкретным человеком. А если данных - больше миллиарда? Для этого нужен более надежный подход.
Таким алгоритмом стал Max Adaptive Degree (MAD), представленный Google на ICML 2025. Он не только эффективнее других параллельных методов, но и работает с наборами данных на десятки и сотни миллиардов записей.
Но тут появляется новая проблема - популярные элементы получают избыточный вес, который можно было бы использовать для менее частых, но ценных данных.
MAD решает ее с помощью адаптивного взвешивания, перераспределяя вес: забирает часть у популярных элементов и отдает тем, чьи значения уже находятся у порога. Это позволяет отобрать больше полезных данных без потери приватности.
Простой пример: представьте 100 пользователей, у каждого по 3 элемента. Один элемент (A) есть у всех, а остальные элементы уникальны. В базовом алгоритме элемент A получит слишком много веса (намного больше необходимого), а уникальные элементы - слишком мало. MAD "забирает" часть веса у A и распределяет его между уникальными элементами, давая им шанс пройти порог.
Метод можно использовать в несколько итераций, публикуя промежуточные результаты с шумом. Так можно еще точнее распределять вес между раундами.
В первом раунде запускается MAD как обычно, а во втором удаляются уже найденные элементы и те, которые явно не пройдут порог. Для остальных элементов применяется "смещение" веса на основе данных первого раунда.
На практике MAD показал отличные результаты. Всего за 2 этапа он отобрал больше полезных элементов, чем другие методы. Например, в Common Crawl (800 млрд. записей) он выбрал набор слов, который покрыл 99.9% всех записей и 97% уникальных слов с полным соблюдением приватности.
@ai_machinelearning_big_data
#AI #ML #Selection #MAD #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤54👍24🔥12🗿4
Media is too big
VIEW IN TELEGRAM
Nvidia приостановила выпуск своих ИИ-чипов H20, разработанных специально для китайского рынка в обход американских санкций. Причиной стало новое распоряжение Пекина, которое вынуждает местные компании отказаться от продукции Nvidia из-за опасений, связанных с безопасностью.
В результате около 700 000 уже произведенных и готовых к отправке чипов, которые ранее получили одобрение от правительства США, теперь простаивают на складах партнера по упаковке. Вся цепочка поставок оказалась парализованной, несмотря на то, что Вашингтон и Nvidia уже достигли политического соглашения.
theinformation.com
Cohere выпустила ризонинг-модель Command A Reasoning, оптимизированную для ресурсоемких задач, требующих логических рассуждений: работа в агентных системах и анализ больших документов. По заявлению разработчиков, на бенчмарках BFCL-v3, Tau-bench и DeepResearch Bench модель превосходит gpt-oss-120b и Mistral Magistral Medium.
Command A Reasoning может работать на одном GPU H100 или A100 с контекстным окном в 128 тыс. токенов, которое можно расширить до 256 000 токенов на нескольких GPU.
Модель уже доступна на платформе Cohere, а на Hugging Face выложена версия для некоммерческого использования под лицензией CC-BY-NC-4.0.
cohere.com
ElevenLabs представила обновленную модель для синтеза речи Eleven v3. Она уже доступна в альфа-версии через API. Модель знает более 70 языков (включая русский) и получила расширенные возможности для передачи эмоций и дополнительные элементы управления голосом.
Одной из главных особенностей стал режим «диалог», который может обрабатывать неограниченное количество спикеров в одном аудио. Для управления интонациями и эмоциональными оттенками речи добавлены специальные аудиотеги.
Доступ к API Eleven v3 (alpha) можно получить с бесплатного аккаунта, однако некоторые функции могут быть платными.
elevenlabs.io
Anthropic создала ИИ-классификатор, который выявляет опасные запросы, касающиеся технологий, связанных с биологическим, химическим и ядерным оружием. Предварительные тесты показали точность системы на уровне 96%.
Цель классификатора - фильтровать информацию об оружии массового поражения еще на этапе предварительного обучения моделей. Такой подход должен предотвратить ситуации, когда чат-боты могут предоставить инструкции по созданию оружия, не влияя при этом на их способность выполнять безопасные задачи. В Anthropic в очередной раз напомнили, что безопасность должна быть фундаментальным принципом при разработке ИИ.
anthropic.com
Илон Маск объявил о запуске новой софтверной компании Macrohard, созданной в рамках его инициативы xAI. Главная цель проекта - построить полностью управляемую ИИ программную корпорацию, которая будет симулировать деятельность Microsoft и конкурировать с ней .
По замыслу Маска, сотни специализированных ИИ-агентов будут совместно работать над созданием программных продуктов, полностью воспроизводя цифровые операции гиганта. Название Macrohard является явной ироничной отсылкой к Microsoft, подчеркивая амбиции проекта стать его прямым конкурентом в сфере ПО.
Elon Musk в сети X
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤64😁36👍19🔥9🙉4👏2👀2⚡1💋1🤓1💘1
🐋 DeepSeek-V3.1 теперь можно запускать локально
Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.
⚡ Огромная экономия памяти
👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF
Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀
@ai_machinelearning_big_data
#DeepSeek #GGUF
Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.
⚡ Огромная экономия памяти
👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF
Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀
@ai_machinelearning_big_data
#DeepSeek #GGUF
❤108🔥46🤣44👍23🤔8🌚4☃2🙈1
Группа инженеров из Google DeepMind опубликовали 12-ю главу своего он-лайн учебника "How to Scale Your Model: A Systems View of LLMs on TPUs"
How to Scale Your Model - практико-ориентированное руководство по масштабированию LLM из 12 разделов для разработчиков и исследователей. Оно объясняет, как анализировать и оптимизировать производительность модели, учитывая системные ресурсы: вычисления, память и пропускную способность.
Пособие научит выбирать оптимальные стратегии параллелизма, оценивать стоимость и время обучения и инференса, а также глубже понять взаимодействие между TPU/GPU и алгоритмами масштабирования как на одном, так и на тысячах ускорителей.
12-я глава - глубокое техническое руководство по архитектуре GPU и стратегиям масштабирования больших моделей. В ней детально разбирается устройство современных GPU NVIDIA: Streaming Multiprocessors, Tensor Cores, иерархия памяти (HBM, L2, SMEM), все это с подробными сравнительными таблицами характеристик для разных поколений чипов.
Очень подробно выполнено сравнение архитектур GPU и TPU, с объясняем ключевого различия между модульностью GPU и монолитностью TPU.
Особое внимание, что редкость для обучающих материалов, уделено сетевой организации кластеров. Авторы доступно объясняют как GPU соединяются внутри узлов через NVLink/NVSwitch и между узлами через InfiniBand в топологии "Fat tree", и как пропускная способность на каждом уровне влияет на реальную производительность коллективных операций (AllReduce, AllGather).
Описаны основные стратегии параллелизма: Data Parallelism, Tensor Parallelism, Expert Parallelism и Pipeline Parallelism, с разбором их ограничений и примеров из реальных проектов.
В конце главы есть хороший анализ новых возможностей архитектуры Blackwell.
@ai_machinelearning_big_data
#AI #ML #LLM #Scaling #GPU #TPU
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67❤40🔥19🥰5
🦎 Эволюция ИИ моделей, вдохновленная природой
В Sakana AI предложили новый подход: развивать ИИ не как один гигантский «мозг», а как экосистему моделей, которые конкурируют, объединяются и обмениваются навыками.
Этот метод они назвали M2N2 (Model Merging of Natural Niches).
🔑 Как это работает
- Гибкие границы слияния — модели объединяются не фиксированными слоями, а переменными кусками параметров, как будто меняются фрагментами ДНК.
- Конкуренция за данные — модели соревнуются за ограниченные ресурсы и становятся «экспертами» в узких областях.
- Выбор партнёров — для объединения подбираются те модели, которые дополняют друг друга: одна сильна там, где другая слаба.
📊 Чего удалось добиться
- С нуля: только слиянием случайных сетей удалось получить классификатор MNIST, сравнимый с классическими эволюционными методами, но быстрее и дешевле.
- Крупные LLM: объединение модели-«математика» и модели-«агента» породило систему, которая уверенно справляется с обоими типами задач.
- Мультимодальные модели: при слиянии text-to-image моделей для японского итоговая версия стала лучше понимать японские запросы и при этом сохранила сильный английский — без «забывания» старых навыков.
Этот подход показывает, что будущее ИИ может быть не за одним огромным монолитом, а за живой экосистемой специализированных моделей, которые эволюционируют вместе, обмениваются сильными сторонами и становятся более гибкими и креативными.
🟠 Paper: https://arxiv.org/abs/2508.16204
🟠 Code: https://github.com/SakanaAI/natural_niches
@ai_machinelearning_big_data
В Sakana AI предложили новый подход: развивать ИИ не как один гигантский «мозг», а как экосистему моделей, которые конкурируют, объединяются и обмениваются навыками.
Этот метод они назвали M2N2 (Model Merging of Natural Niches).
🔑 Как это работает
- Гибкие границы слияния — модели объединяются не фиксированными слоями, а переменными кусками параметров, как будто меняются фрагментами ДНК.
- Конкуренция за данные — модели соревнуются за ограниченные ресурсы и становятся «экспертами» в узких областях.
- Выбор партнёров — для объединения подбираются те модели, которые дополняют друг друга: одна сильна там, где другая слаба.
📊 Чего удалось добиться
- С нуля: только слиянием случайных сетей удалось получить классификатор MNIST, сравнимый с классическими эволюционными методами, но быстрее и дешевле.
- Крупные LLM: объединение модели-«математика» и модели-«агента» породило систему, которая уверенно справляется с обоими типами задач.
- Мультимодальные модели: при слиянии text-to-image моделей для японского итоговая версия стала лучше понимать японские запросы и при этом сохранила сильный английский — без «забывания» старых навыков.
Этот подход показывает, что будущее ИИ может быть не за одним огромным монолитом, а за живой экосистемой специализированных моделей, которые эволюционируют вместе, обмениваются сильными сторонами и становятся более гибкими и креативными.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤63👍27🔥13🤔3❤🔥1😁1