Data Secrets
Anthropic теперь будут обучать модели на TPU Они заключили большую сделку с Google, и уже к концу 2026 гигант предоставит стартапу мощностей на 1 гигаватт. Это более миллиона чипов. Говорят, что TPU выбрали из-за соотношения цены и производительности.…
Буквально все ИИ-стартапы в последние пол года:
😁208🔥27👍10 7🗿5❤4💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Датацентры могут перенестись в космос
Nvidia заключили очень занятную сделку со стартапом под названием Starcloud. Они планируют начать создавать датацентры на орбите Земли. Утверждается, что у таких кластеров есть целый ряд преимуществ:
1. Можно экономить на охлаждении. На Земле приходится тратиться на воду, а в космосе можно использовать вакуум как почти бесконечный радиатор. Это работает за счёт теплоотдачи через инфракрасное излучение.
2. На орбите можно активнее использовать солнечную энергию. Снова экономия.
3. Минимальный углеродный след. Пишут, что выбросы CO₂ можно сократить аж в 10 раз.
Короче, даже с учётом расходов на запуск Starcloud считает, что энергозатраты будут примерно в 10 раз меньше, чем на Земле.
Уже в ноябре они планируют запустить спутник с GPU размером примерно с холодильник, а в долгосрочной перспективе хотят построить датацентр мощностью 5 гигаватт.
Это примерно 4 квадратных километра GPU Nvidia, летающих в космосе👀
Nvidia заключили очень занятную сделку со стартапом под названием Starcloud. Они планируют начать создавать датацентры на орбите Земли. Утверждается, что у таких кластеров есть целый ряд преимуществ:
1. Можно экономить на охлаждении. На Земле приходится тратиться на воду, а в космосе можно использовать вакуум как почти бесконечный радиатор. Это работает за счёт теплоотдачи через инфракрасное излучение.
2. На орбите можно активнее использовать солнечную энергию. Снова экономия.
3. Минимальный углеродный след. Пишут, что выбросы CO₂ можно сократить аж в 10 раз.
Короче, даже с учётом расходов на запуск Starcloud считает, что энергозатраты будут примерно в 10 раз меньше, чем на Земле.
Уже в ноябре они планируют запустить спутник с GPU размером примерно с холодильник, а в долгосрочной перспективе хотят построить датацентр мощностью 5 гигаватт.
Это примерно 4 квадратных километра GPU Nvidia, летающих в космосе
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня закончилась ежегодная конференция PyTorchCon в Сан-Франциско
Собрали для вас небольшой обзор на 4 самых интересных и полезных продукта, которые PyTorch выпустили за эти дни:
1. Релизнули целый язык программирования – Helion. Работает на базе питона и предназначен для написания ядер. Теперь можно кодить оптимизированные ядра на привычном синтаксисе, а Helion уже сам скомпилирует это все в Triton.
2. torchcomms – новая экспериментальная коммуникационная библиотека для распределённого обучения в PyTorch. Сделано специально под сценарии с большим количеством железа (пишут, что аж до 100к GPU).
3. ExecuTorch 1.0 – end-to-end решение для инференса (и частично для обучения) моделей на мобильных и носимых устройствах. Самый сок.
4. torchforge – новая либа для RL’ки и агентов. Акцент сделали на разделении алгоритмической части и инфраструктурной: чтобы можно было думать о подходе, а не о шардировании, отказоустойчивости и прочем. Выглядит приятно.
Продуктивные у них вышли два дня
Собрали для вас небольшой обзор на 4 самых интересных и полезных продукта, которые PyTorch выпустили за эти дни:
1. Релизнули целый язык программирования – Helion. Работает на базе питона и предназначен для написания ядер. Теперь можно кодить оптимизированные ядра на привычном синтаксисе, а Helion уже сам скомпилирует это все в Triton.
2. torchcomms – новая экспериментальная коммуникационная библиотека для распределённого обучения в PyTorch. Сделано специально под сценарии с большим количеством железа (пишут, что аж до 100к GPU).
3. ExecuTorch 1.0 – end-to-end решение для инференса (и частично для обучения) моделей на мобильных и носимых устройствах. Самый сок.
4. torchforge – новая либа для RL’ки и агентов. Акцент сделали на разделении алгоритмической части и инфраструктурной: чтобы можно было думать о подходе, а не о шардировании, отказоустойчивости и прочем. Выглядит приятно.
Продуктивные у них вышли два дня
🔥96❤39👍23😁3
This media is not supported in your browser
VIEW IN TELEGRAM
Ян Лекун снова раздает критику в адрес современного ИИ. На этот раз досталось роботам
Просьба всем робо-стартапам вернуть деньги инвесторам. Спасибо за внимание.
Из нового интервью Массачусетскому университету
Большой секрет всей этой отрасли в том, что ни одна из этих компаний не имеет ни малейшего представления о том, как сделать роботов достаточно умными для того, чтобы быть глобально полезными.
Мы можем обучить их под конкретные задачи. Например, делать что-то на производстве или типа того. Но автономный домашний робот абсолютно невозможен без целого списка прорывов в области ИИ.
Так что успех всех этих компаний напрямую зависит от прогресса, которого мы добьемся с world modelling архитектурами, умеющими планировать.
Просьба всем робо-стартапам вернуть деньги инвесторам. Спасибо за внимание.
Из нового интервью Массачусетскому университету
1😁189❤38👍34💯12😎4👌3🫡2🗿2 2❤🔥1🤔1
Интересная статья из Nature про то, как один ИИ учил другой
Возможно, вы уже что-нибудь слышали про мета-обучение. Нынче это довольно модно.
Суть в том, что вместо того, чтобы учить одну модель, мы учим две. Первую – обычную, а вторую (мета-модель) – чтобы регулировать, как учится первая.
То есть в процессе обучения мета-модель подбирает гиперпараметры и алгоритмы, которые используются для того, чтобы учить базовую модель. Получается, что обучение эволюционирует, и система учится, как лучше учиться👥
Здесь эту идею взяли и применили для RL. Технически, получается два уровня обучаемых параметров. Первый – это обычная политика нашего агента. Второй – мета-параметры, которые определяют, по какому правилу будет обновляться политика.
Для того, чтобы оптимизировать мета-параметры, мы запускаем много агентов с разными политиками в разных средах. Их опыт – это данные для обучения мета-модели. Чем больше она видит таких данных, тем лучше становится правило обновления и, следовательно, тем эффективнее она учит агентов.
Итог: таким подходом авторам удалось синтезировать алгоритм обучения, который превзошел предыдущие человеческие решения. На игровом бенчмарке Atari обученный с его помощью агент выбил соту.
Конечно, компьюта на такие достижения нужно просто море + не факт, что если стрельнуло в одной области, стрельнет и в другой. Но занятно, занятно.
И кстати, это уже сингулярность?😛
Возможно, вы уже что-нибудь слышали про мета-обучение. Нынче это довольно модно.
Суть в том, что вместо того, чтобы учить одну модель, мы учим две. Первую – обычную, а вторую (мета-модель) – чтобы регулировать, как учится первая.
То есть в процессе обучения мета-модель подбирает гиперпараметры и алгоритмы, которые используются для того, чтобы учить базовую модель. Получается, что обучение эволюционирует, и система учится, как лучше учиться
Здесь эту идею взяли и применили для RL. Технически, получается два уровня обучаемых параметров. Первый – это обычная политика нашего агента. Второй – мета-параметры, которые определяют, по какому правилу будет обновляться политика.
Для того, чтобы оптимизировать мета-параметры, мы запускаем много агентов с разными политиками в разных средах. Их опыт – это данные для обучения мета-модели. Чем больше она видит таких данных, тем лучше становится правило обновления и, следовательно, тем эффективнее она учит агентов.
Итог: таким подходом авторам удалось синтезировать алгоритм обучения, который превзошел предыдущие человеческие решения. На игровом бенчмарке Atari обученный с его помощью агент выбил соту.
Конечно, компьюта на такие достижения нужно просто море + не факт, что если стрельнуло в одной области, стрельнет и в другой. Но занятно, занятно.
И кстати, это уже сингулярность?
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍123❤42🔥20😁10👌2 2 2
Отец ИИ Йошуа Бенджио пробил 1 миллион цитирований по официальным данным Google Scholar
В мире единицы ученых с таким Хиршем и количеством цитирований: можно пересчитать по пальцам одной руки. И до этого момента, насколько нам известно, не было ни одного из сферы Computer Science и ML.
Поздравляем!
В мире единицы ученых с таким Хиршем и количеством цитирований: можно пересчитать по пальцам одной руки. И до этого момента, насколько нам известно, не было ни одного из сферы Computer Science и ML.
Поздравляем!
1🎉371❤67👍37 23🔥12🗿5😎3
Интересно ваше мнение. У кого будет лучшая модель к концу 2025?
Anonymous Poll
30%
OpenAI
35%
Google
9%
xAI
13%
Anthropic
4%
Safe Superintelligence 🌚
9%
Другое
❤37🤔29☃5🗿3⚡2
В OpenAI может появится реклама на основе памяти
Об этом пишет The Information в свежей статье «OpenAI Readies Itself for Its Facebook Era».
Они выяснили, что в последнее время OpenAI ну очень активно нанимает бывших сотрудников Meta. Сейчас они составляют уже около 20% всего стартапа.
Подразделение Strategic Initiatives теперь вообще почти полностью состоит из выходцев из фейсбука. А возглавляет его Фиджи Симо, которая до этого руководила рекламой и монетизацией у Цукерберга.
И это, видимо, не случайность. Именно группа Strategic Initiatives сейчас обсуждает и исследует рекламные возможности в ChatGPT. Они предлагают внедрить рекламу с использованием памяти.
То есть та самая фича, благодаря которой бот умеет ссылаться на прошлые диалоги и учитывать их, теперь может быть использована для того, чтобы что-то вам продавать😐
Сбор и анализ пользовательских данных с целью монетизации – это буквально бизнес-модель Meta. Только в разы мощнее.
Представьте: люди месяцами и годами так или иначе рассказывали ChatGPT о себе, своей работе, детях, питомцах и тд. Если каждому пользователю предлагать товары, учитывая весь этот контекст, – это будет, вероятно, самая эффективная рекламная модель в мире.
С одной стороны, это какое-то черное зеркало. И даже Сэм Альтман когда-то говорил, что сценарий с внедрением рекламы был бы «тревожным и подрывающим доверие».
С другой, это вероятно единственная возможность OpenAI выйти на какую-то прибыль к 2029 (как они обещали инвесторам). Именно поэтому возможность рекламы изучается сейчас всерьез.
А еще согласно focus-группам часть пользователей уже считает, что ответы в ChatGPT – это реклама. Так что мы с вами можем даже не заметить, когда на нас раскатят что-то подобное✌️
Об этом пишет The Information в свежей статье «OpenAI Readies Itself for Its Facebook Era».
Они выяснили, что в последнее время OpenAI ну очень активно нанимает бывших сотрудников Meta. Сейчас они составляют уже около 20% всего стартапа.
Подразделение Strategic Initiatives теперь вообще почти полностью состоит из выходцев из фейсбука. А возглавляет его Фиджи Симо, которая до этого руководила рекламой и монетизацией у Цукерберга.
И это, видимо, не случайность. Именно группа Strategic Initiatives сейчас обсуждает и исследует рекламные возможности в ChatGPT. Они предлагают внедрить рекламу с использованием памяти.
То есть та самая фича, благодаря которой бот умеет ссылаться на прошлые диалоги и учитывать их, теперь может быть использована для того, чтобы что-то вам продавать
Сбор и анализ пользовательских данных с целью монетизации – это буквально бизнес-модель Meta. Только в разы мощнее.
Представьте: люди месяцами и годами так или иначе рассказывали ChatGPT о себе, своей работе, детях, питомцах и тд. Если каждому пользователю предлагать товары, учитывая весь этот контекст, – это будет, вероятно, самая эффективная рекламная модель в мире.
С одной стороны, это какое-то черное зеркало. И даже Сэм Альтман когда-то говорил, что сценарий с внедрением рекламы был бы «тревожным и подрывающим доверие».
С другой, это вероятно единственная возможность OpenAI выйти на какую-то прибыль к 2029 (как они обещали инвесторам). Именно поэтому возможность рекламы изучается сейчас всерьез.
А еще согласно focus-группам часть пользователей уже считает, что ответы в ChatGPT – это реклама. Так что мы с вами можем даже не заметить, когда на нас раскатят что-то подобное
Please open Telegram to view this post
VIEW IN TELEGRAM
GSI Technology заявили, что разработали чип, который по производительности соответсвует NVIDIA A6000, но потребляет на 98% меньше энергии
Их Gemini‑I APU построен на архитектуре Compute-in-Memory. В обычных чипах данные хранятся в памяти, а вычисления проходят отдельно на ядрах. Чтобы что-то посчитать, надо прочитать из памяти -> передать в вычислитель -> посчитать -> вернуть обратно. Это классическая архитектура фон Неймана, но вот эти перегонки данных туда-сюда стоят очень дорого.
В APU же вычислительные операции выполняются не отдельно от памяти, а внутри. В ячейки памяти встроены маленькие логические элементы, которые могут выполнять простые битовые операции без выноса данных наружу. То есть память становится одновременно и хранилищем, и вычислителем. И вот за счет того, что данные больше не нужно таскать, и получается такая огромная экономия.
Результат очень бодрый, конечно. И его, кстати, проверили ученые из Cornell University и MIT, так что замерам можно доверять.
Но есть нюансы.
1. Во-первых, производить такие чипы сильно дороже: используется SRAM и требуется больше транзисторов.
2. Во-вторых, они менее универсальные (в данном случае тестировали только на RAG, что там будет на других задачах – непонятно).
3. В-третьих, просто так пересесть на Compute-in-Memory нельзя, у нас вся инфраструктура оптимизирована под GPU. Вопрос совместимости ключевой.
И тем не менее, 98% экономии – это прямо хорошо. Даже если получится воткнуть только под какую-нибудь локальную задачку инференса.
Акции GSI Technology, кстати, взлетели на фоне новостей почти на 200%🙂
Их Gemini‑I APU построен на архитектуре Compute-in-Memory. В обычных чипах данные хранятся в памяти, а вычисления проходят отдельно на ядрах. Чтобы что-то посчитать, надо прочитать из памяти -> передать в вычислитель -> посчитать -> вернуть обратно. Это классическая архитектура фон Неймана, но вот эти перегонки данных туда-сюда стоят очень дорого.
В APU же вычислительные операции выполняются не отдельно от памяти, а внутри. В ячейки памяти встроены маленькие логические элементы, которые могут выполнять простые битовые операции без выноса данных наружу. То есть память становится одновременно и хранилищем, и вычислителем. И вот за счет того, что данные больше не нужно таскать, и получается такая огромная экономия.
Результат очень бодрый, конечно. И его, кстати, проверили ученые из Cornell University и MIT, так что замерам можно доверять.
Но есть нюансы.
1. Во-первых, производить такие чипы сильно дороже: используется SRAM и требуется больше транзисторов.
2. Во-вторых, они менее универсальные (в данном случае тестировали только на RAG, что там будет на других задачах – непонятно).
3. В-третьих, просто так пересесть на Compute-in-Memory нельзя, у нас вся инфраструктура оптимизирована под GPU. Вопрос совместимости ключевой.
И тем не менее, 98% экономии – это прямо хорошо. Даже если получится воткнуть только под какую-нибудь локальную задачку инференса.
Акции GSI Technology, кстати, взлетели на фоне новостей почти на 200%
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤125🤯52🔥26 10👍9 5🤔4😁3
Компании активно переходят на нейросети в облаке
Раньше бизнес с опаской относился к тому, чтобы запускать ИИ-модели в облаке, и разворачивал их on-premises. Но тренд меняется: облака уже стали местом, где модели обучаются, генерируют тексты, пишут код и ищут информацию по внутренним документам.
Причина простая — инфраструктура изменилась. В облаках появились инструменты, которые позволяют запускать ИИ-агентов без кода, подключать их к корпоративным сервисам и использовать открытые модели наравне с собственными.
Например, в Yandex AI Studio с начала года потребление генеративных моделей выросло в пять раз, ежемесячно это десятки миллиардов токенов. Самые активные — YandexGPT и Qwen3-235b. Яндексовые модели используют для работы с текстами и RAG-сценариев, нейросеть от AliBaba – для агентских систем.
Раньше бизнес с опаской относился к тому, чтобы запускать ИИ-модели в облаке, и разворачивал их on-premises. Но тренд меняется: облака уже стали местом, где модели обучаются, генерируют тексты, пишут код и ищут информацию по внутренним документам.
Причина простая — инфраструктура изменилась. В облаках появились инструменты, которые позволяют запускать ИИ-агентов без кода, подключать их к корпоративным сервисам и использовать открытые модели наравне с собственными.
Например, в Yandex AI Studio с начала года потребление генеративных моделей выросло в пять раз, ежемесячно это десятки миллиардов токенов. Самые активные — YandexGPT и Qwen3-235b. Яндексовые модели используют для работы с текстами и RAG-сценариев, нейросеть от AliBaba – для агентских систем.
🤨56🗿23👍19❤11😁4 4🔥3👌2👨💻2🤓1 1
Media is too big
VIEW IN TELEGRAM
Джеффри Хинтон заявил, что у нас все-таки есть шанс остаться в живых и сосуществовать с ИИ. Для этого надо встроить в модели материнский инстинкт.
Ученый говорит, что мать и ее ребенок – это единственный пример ситуации, когда менее развитое существо управляет более развитым. Это заслуга эволюции, то есть материнский инстинкт.
Чтобы человечество выжило после появления сверхинтеллекта, ученым нужно попытаться воспроизвести этот инстинкт в моделях.
👶
Ученый говорит, что мать и ее ребенок – это единственный пример ситуации, когда менее развитое существо управляет более развитым. Это заслуга эволюции, то есть материнский инстинкт.
Чтобы человечество выжило после появления сверхинтеллекта, ученым нужно попытаться воспроизвести этот инстинкт в моделях.
Лидеры компаний думают об ИИ, как будто это ассистент, а мы боссы. Но это невозможно. Мы не должны пытаться доминировать. Мы должны создавать ИИ как родителя. Только в таком случае эти системы будут помогать нам достигать лучшего, даже если мы будем слабее их.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁240👍134❤43🤔33🔥11💯9🗿8 6🤨5🦄5✍4
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥192😁139💯50 17🫡11❤8👍4 3🗿2😎2
Авито опенсорснули свои ИИ-модели A-Vibe и A-Vision
Инвестиции в разработку составили около полумиллиарда рублей.
Это первые российские открытые модели, специально обученные для e-commerce. Именно они работают на проде Авито и помогают вам, например, писать описания к объявлению по фотографиям.
Они подходят для анализа документов, автоматизации контента и других распространенных задач. Также модельки умеют в function calling, так что на их базе можно строить даже агентов. Во многих открытых русскоязычных рейтингах A-Vibe и A-Vision занимают первые места.
Кроме того, модели специально оптимизированы под русский язык, что позволят экономить до 50% ресурсов на вычисления в сравнении с другими легкими моделями.
Приятная вишенка: бонусом к моделям Авито перевели на русский язык 4 международных бенчмарка. Такой вот подарок комьюнити.
Hugging Face (лицензия Apache 2.0, использовать можно в том числе в коммерческих целях)
Инвестиции в разработку составили около полумиллиарда рублей.
Это первые российские открытые модели, специально обученные для e-commerce. Именно они работают на проде Авито и помогают вам, например, писать описания к объявлению по фотографиям.
Они подходят для анализа документов, автоматизации контента и других распространенных задач. Также модельки умеют в function calling, так что на их базе можно строить даже агентов. Во многих открытых русскоязычных рейтингах A-Vibe и A-Vision занимают первые места.
Кроме того, модели специально оптимизированы под русский язык, что позволят экономить до 50% ресурсов на вычисления в сравнении с другими легкими моделями.
Приятная вишенка: бонусом к моделям Авито перевели на русский язык 4 международных бенчмарка. Такой вот подарок комьюнити.
Hugging Face (лицензия Apache 2.0, использовать можно в том числе в коммерческих целях)
🔥156🗿39❤25👍17😁11🤯3
У нас тут новая SOTA в опенсорсе
Естественно, от китайцев: Minimax M2. Модель примерно на уровне Grok 4 Fast и Gemini 2.5 Pro. В основном создано для агентов и end-to-end кодинга.
Самое интересное: в течение ограниченного времени модель можно бесплатно попробовать в API. Потом установят цены, но и после этого модель будет достаточно дешевой (примерно 8% от цены Claude Sonnet, например).
Веса (лицензия MIT)
Естественно, от китайцев: Minimax M2. Модель примерно на уровне Grok 4 Fast и Gemini 2.5 Pro. В основном создано для агентов и end-to-end кодинга.
Самое интересное: в течение ограниченного времени модель можно бесплатно попробовать в API. Потом установят цены, но и после этого модель будет достаточно дешевой (примерно 8% от цены Claude Sonnet, например).
Веса (лицензия MIT)
3❤102🔥39👍17🤯7 5⚡2😁2👏1🤨1
Data Secrets
В xAI разрабатывают аналог Википедии – Grokipedia Илон Маск завявил, что платформа будет «значительным улучшением» Википедии, которая по мнению многих сейчас развивается политически предвзято. Честно говоря, это просто необходимый шаг на пути xAI к познанию…
Это аналог Википедии, но с исправленными статьями. Маск считает, что в оригинальной Wiki статьи политически предвзятые и часто неправдивые, потому что их пишут люди.
Grokipedia же позиционируется как «энциклопедия, созданная для правды». Работает она, естественно, на основе Grok. Агент ищет факты, очищает их от налета идеологий и мнений и пишет/проверяет статьи.
Пока доступна версия 0.1 – ранняя бета. Опенсорс.
grokipedia.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥167😁122🤔25🤨17👍15 8❤7🗿4❤🔥2☃1🤓1
Thinking Machines предложили новый метод дистилляции, который обходит RL по эффективности
Сразу оговорка: это не замена RL. Но и не обычная дистилляция. Тут исследователи как бы взяли лучшее от двух этих миров и объединили в один подход.
Смотрите. Обычная дистилляция страдает от расхождения распределений: грубо говоря, модель-ученик плохо генерализуется, потому что видит только ответы/логиты учителя, и перенимает скорее стиль, чем знания. Это работает на несложных вопросах, но на длинных рассуждениях ошибки накапливаются и качество сбоит.
С другой стороны у нас есть RL, где агент обучается на своих же траекториях. Но RL дает редкую награду, и тут нельзя оценивать токены изолировано, как в дистилляции. Как говорил Карпаты, это приводит к тому, что сигнал рассеивается и обучения тормозит.
Thinking Machines предлагают объединенный подход под названием "On-Policy Distillation". Суть:
В итоге получаем одновременно и плотную оценку, и обучение на собственных ответах без проблем с распределением.
Работает это весьма неплохо. На AIME’24 on-policy distillation довела Qwen3-8B с 60% до 70% точности всего за 150 шагов. Для сравнения, RL-тренинг по отчётам Qwen занял около 17 900 GPU-часов и дал 67,6 %. Это экономия в десятки раз.
Отличная работа.
thinkingmachines.ai/blog/on-policy-distillation/
Сразу оговорка: это не замена RL. Но и не обычная дистилляция. Тут исследователи как бы взяли лучшее от двух этих миров и объединили в один подход.
Смотрите. Обычная дистилляция страдает от расхождения распределений: грубо говоря, модель-ученик плохо генерализуется, потому что видит только ответы/логиты учителя, и перенимает скорее стиль, чем знания. Это работает на несложных вопросах, но на длинных рассуждениях ошибки накапливаются и качество сбоит.
С другой стороны у нас есть RL, где агент обучается на своих же траекториях. Но RL дает редкую награду, и тут нельзя оценивать токены изолировано, как в дистилляции. Как говорил Карпаты, это приводит к тому, что сигнал рассеивается и обучения тормозит.
Thinking Machines предлагают объединенный подход под названием "On-Policy Distillation". Суть:
– Как в обычной дистилляции, у нас есть модель-учитель (большая, сильная модель) и модель-ученик (модель поменьше, которую обучаем).
– Из RL берем идею об обучении на своих же траекториях. То есть прогоняем батч промптов и сэмплим именно ответы студента.
– Даем учителю точные префиксы ответов ученика и делаем прямой проход.
– Считаем reverse-KL лосс по каждому токену, сравнивая лог-prob ученика и учителя.
В итоге получаем одновременно и плотную оценку, и обучение на собственных ответах без проблем с распределением.
Работает это весьма неплохо. На AIME’24 on-policy distillation довела Qwen3-8B с 60% до 70% точности всего за 150 шагов. Для сравнения, RL-тренинг по отчётам Qwen занял около 17 900 GPU-часов и дал 67,6 %. Это экономия в десятки раз.
Отличная работа.
thinkingmachines.ai/blog/on-policy-distillation/
👍97❤37🔥23😁2🤯1🗿1 1