AI[ex]Time

За последнее время пришлось углубиться в спекулятивный декодинг и прочитать с десяток статей. Некоторыми из них, которые показались мне интересными и при этом не базовыми, захотелось поделиться:

GRIFFIN: Effective Token Alignment for Faster Speculative Decoding. Во время обучения драфт моделей, у нас происходит training-inference misalignment, потому что во время трейна все токены получены из таргетной модели, в то время как во время инференса токены получаются из драфт модели авторегресионно. Статья предлагает, на мой взгляд, немного костыльный способ борьбы с этим, но сама проблема – интересная, и про нее кажется не так много пишут.

Block Verification Accelerates Speculative Decoding. Просто очень классный взгляд на процесс верификации, когда от rejection sampling на уровне каждого токена, мы переходим на уровень целого предсказанного блока.

DistillSpec: Improving Speculative Decoding via Knowledge Distillation. Изучает различные виды divergences для дистилляции таргетной модели в драфтерную, все-таки KL loss – не единственный вариант учить такие модели.

FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling. Тк драфт модели сейчас делаются довольно маленькими, language head занимает существенную часть времени во время инференса. Авторы предлагают делать словарь намного меньше, убирая нечастотные токены и для драфтера использовать такие обрубленные словари. Кстати, EAGLE3, которые выходят в опенсорс, часто используют уже эту оптимизацию. Например, популярная коллекция от RedHat.

Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion. Очень интересное направление, чтобы для драфтинга использовать диффузионные модели, которые на первый взгляд очень хорошо ложатся в данную задачу, но несут много дополнительных вопросов. По этой статье можно найти еще серию интересных связанных, и уже есть продолжение работы – SpecDiff2.

RADAR: Accelerating Large Language Model Inference With RL-Based Dynamic Draft Trees. На инференсе драфт токены уже давно не предсказываются одной цепочкой. Вместо этого генерируется сразу дерево вариантов, которое потом проверяется основной моделью. Эта тема уходит отдельно еще в оптимизационную составляющую, тк чтобы эффективно пропустить все цепочки из дерева за один forward pass модели, нужно использовать tree mask attention. Но здесь в работе изучается сам процесс построения деревьев и применение RL к этой задаче.

В свое время Илья давал ссылки на интересные статьи с ACL25, часть1 и часть2.

Для тех, кому интересно разобраться с нуля, статьи, с которых можно начать:

Оригинальная статья, Medusa, Eagle 1, Eagle 2, Eagle 3.

Если что-то знаете из того, что стоит почитать по теме, присылайте!

⚡9👍3

2.98K viewsedited 18:21

AI[ex]Time

А теперь угадайте, сколько подач на ICML 2026

> 34k

💀

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚13🤯8😱5

2.1K views11:24

AI[ex]Time

Я уже не знаю, как отвечать в последнее время на вопросы, что ботать на первых курсах, чтобы заниматься ML/LLM и тд через несколько лет, или как искать работу потом. Но этот общий совет мне кажется makes sense.

1.31K views13:59

AI[ex]Time

Forwarded from e/acc

Как стать топ-1% в век ИИ

Если вам от 14 до 24 и вы хотите быть супер успешным в пост-ИИ экономике, где большинство рутинных и офисных профессий заменены агентами, то у меня есть два простых, но очень важных совета:

1. Попросите родителей или сэкономьте на сладостях $100 в месяц, купите подписку Max у Антропика (бонус поинты: купите за $200) и делайте что угодно в Claude code чтобы потратить >80% недельного бюджета токенов КАЖДУЮ НЕДЕЛЮ. Не важно что. Спросите Клода «а что такого классного я могу сделать?», создайте пранк, фильм, игру, книгу, приложение которое за вас решает домашку, общается за вас в Тиндере. Это не про программирование, а про умение на лету создавать и управлять армией сверхумных агентов.

2. Безжалостно ищите самых энергичных и умных людей в той сфере, которая вам интересна. Поступите в крутой вуз (знания не так важны, но важна тусовка), вступите в элитный дискорд, запишитесь на конфу или митап. Ибо чем умнее будет ИИ и чем больше он сможет делать «обычной работы», тем ценнее будут самые необычные, талантливые, exceptional люди и отношени между ними.

Я жутко завидую и радуюсь детям, своим и вообще, потому что возможностей творить и раскрываться у них больше, чем когда-либо на планете.

👍31🤡28🔥8🍌2

1.24K views13:59

AI[ex]Time

Чуть в сторону от технических тем – сразу клоуны полетели 😕

Тогда пока я пишу длинный пост про RL, можно посмотреть на предстоящий релиз rebench, в этом месяце будет много интересного

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13👍6😁5🤡1🍌1

1.46K views14:18

AI[ex]Time

1.06K views19:04

AI[ex]Time

В современном агентском reinforcement learning with verifiable rewards (RLVR) есть ярко выраженная проблема credit assignment: допустим SWE агент пытается решить долгую и сложную задачу, тратит на это миллионы токенов и сотни шагов. В конце ему приходит сигнал от verifier-а, решена задача или нет. Проблема в том, что на протяжении предыдущих шагов могли быть как и очень хорошие действия, так и бесполезные и даже вредные. Классический GRPO считает Advantage для всей траектории целиком, и в итоге все токены у нас равнозначны, их вероятности во время обучения мы двигаем в одну сторону (Advantage здесь – это величина, показывающая, насколько мы хуже/лучше средней траектории, соответственно мы хотим закреплять поведение, если A > 0, и штрафовать, если A < 0). Проблема усугубляется, когда наград становится несколько, что на практике возникает часто. И действительно, легко придумать целое множество дополнительных сигналов, которое хотелось бы использовать: сделать reproduce бага; запустить тесты для проверки; линтер, чтобы соблюсти код стайл; избежать повторяющихся тул колов + кучу каких-то рубрик (Вот интересная работа DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research, где рубрик много, и они меняются по ходу обучения). Пока что классические методы все равно дают невероятные результаты, которые мы с вами видим в SWE на протяжении последнего полугода, но все равно в будущем очень пригодятся методы увеличения количества сигнала из каждой траектории, ведь задачи будут становится все дольше и дольше, и для них получение ролаута будет занимать не минуты, а, скажем, часы. Мне это направление очень нравится и думаю, что в ближайшее время мы увидим не одну работу, направленную в эту сторону.

Прежде чем сказать про нашу работу, расскажу еще про один стандартный подход, который позволяет оценивать Advantage для промежуточных шагов. Мы можем остановиться на промежуточном шаге и сделать из него K ролаутов до конца, таким образом получить оценку, а как в среднем мы решаем задачу из этого состояния, применив такое-то действие. Сделав такое для всех действий из траектории, можно получить очень точное понимание, какие действия хорошие, а какие – плохие (известная работа здесь – VinePPO). Но здесь есть другая большая проблема – нам нужно делать большое кол-во ролаутов только для того, чтобы точно оценить advantage, так еще и на многих шагах. Для сценариев, которые мы описывали выше это огромная трата компьюта. С другой стороны, можно делать всякие оптимизации, строить деревья состояний для группировки, определять состояния, из которых наиболее важно делать много ролаутов, а на остальные забить – вариантов довольно много.

В статье Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards (BAE) мы попробовали вообще избежать дополнительных ролаутов и посмотреть на частный и довольно простой случай RLVR, когда у нас много наград, но за каждую отвечает отдельный кусок траектории. На самом деле, агентских задач подобного рода довольно много. Например, мы даем N попыток решить задачу, и генерация модели состоит из (analysis + answer)_1, (reflection + analysis + answer)_2 и тд до N. Или SWE агент, который сначала воспроизводит баг, потом ищет нужный файл для фикса, потом пишет правку, запускает тесты и тд. Мы предложили вместо того делать ролауты из одного стейта, объединить похожие из них из текущей группы. Если агент воспроизвел баг, так ли важно, как он это сделал? Добрался каким-то путем, в результате чего он видит трейс ошибки – отлично, давайте будем считать это за эквивалентные стейты. Думаю, что у подобного взгляда на задачу вполне может быть развитие и дальше в более агентские задачи. В статье есть всякие примеры для математики, насколько такая оценка смещена относительно истинной и много других замеров. В результате получилось +- сравняться с sota методом, который отдельно тюнил структуру награды под конкретную задачу, причем если эту структуру поменять, то метод может и развалиться в отличие от BAE.

👍10❤5🔥3

1.45K views19:04

AI[ex]Time

Пост выше больше не про нашу статью, а про небольшой обзор credit assignment в RLVR. Написание его заняло побольше времени, чем обычно, поэтому хочется узнать, стоит ли про какие-то общие направления рассказывать в подобном формате в будущем (например, скоро будет, что рассказать про RL environments), в связи с этим опрос ниже.

👍7

1.46K views19:14

AI[ex]Time

Anonymous Poll

46%

Интересно, но можно ещё детальнее

39%

Интересно, в таком формате идеально

Интересно, но можно и покороче

Неинтересно

130 voters1.63K views19:15

AI[ex]Time

Forwarded from commit history

Мы тут в Nebius AI R&D выкатили новый тул для всех, кто работает с кодовыми агентами – ConTree 🌳

https://contree.dev/

Пока в альфа релизе, будем рады фидбеку и вопросам!
Начинаем раскатывать понемногу перед большим релизом, чтобы собрать фидбек и шлифануть все.

Мы давно работаем с агентами, и одна из ключевых сильных сторон нашей команды – это умение пилить инфру.

С агентами всегда стоит вопрос: где им безопасно и быстро выполнять код? В докере есть ограничения, а обычные виртуалки — слишком медленные. В итоге мы сделали свою песочницу на базе microVM.

Пара главных фичей:
+ Git-like ветвление стейта. Агент доходит до чекпойнта и может запустить 5 вариантов кода параллельно (идеально для MCTS/Beam Search). Если скрипт падает, агент откатывается назад за миллисекунды. Ошибки LLM теперь ничего не стоят.

+ Hardware-изоляция. Агент может крашнуть ядро или сделать rm -rf / — ConTree всё проглотит и мгновенно восстановится.

+ Готовый MCP сервер. Добавляешь пару строк в конфиг claude, и у него появляется неубиваемый облачный терминал.

Пишите в комменты или в личку, если хотите попробовать и свои вопросы! Мы поможем всё настроить и сделать тестовые запуски.

🔥22❤3

953 views12:01

AI[ex]Time

Если хотите попробовать завести для каких-то интересных своих кейсов, то можно мне тоже написать

1.24K views12:06

AI[ex]Time

Возвращаясь к теме спекулятивного декодинга. Сегодня выпустили нашу работу LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding.

Стандартом обучения драфт моделей стала минимизация KL дивергенции между самим драфтером и таргетной моделью, но почему? С одной стороны, такой выбор интуитивный: во-первых, мы приближаем одно распределение к другому; во-вторых, если KL = 0, то распределения совпадают и acceptance rate (одна из главных метрик при спекуляции) будет равен 1. Но на самом деле не все так просто. Мы предложили другой objective для оптимизации, который напрямую максимизирует acceptance rate. Постараюсь в ближайшее время сделать обзор статьи, но пока поделюсь главными результатами:

• Drop-in replacement в тренировке, нужно поменять буквально несколько строчек в ваших пайплайнах.
• +8-10% в mean acceptance length на разных архитектурах драфтеров (MEDUSA, EAGLE3, MTP, MLP) и разных моделях (от llama8B до deepseek 685B)
• Веса всех драфтеров выложены в HF. Можете забирать MTP для deepseek-v3, eagle3 для gpt-oss120b и тд и сразу гонять в условном vllm. Также, если кому надо для экспериментов, можно брать большие датасеты с генерациями всех этих моделей, на которых мы учили драфтеры.

👍9🔥8❤2👏2

9.05K views16:43

AI[ex]Time

Forwarded from commit history

Последние пару месяцев я плотно работал над этим релизом, и наконец-то мы выкатываем его в опенсорс!

📟 Встречайте SWE-rebench-V2: самый большой открытый, мультиязычный датасет для обучения кодовых агентов!

Вместе с командой Nebius AI R&D мы построили пайплайн для масштабного сбора задач из реальных GitHub репозиториев и теперь делимся всем с комьюнити. На текущий момент это самый большой и разнообразный открытый датасет подобных задач в мире.

Что внутри:
> 32 000+ задач — на базе реальных issue + готовый Docker-образ.
> 20 языков программирования. Некоторые языки (например, Lua или Clojure) вообще никогда раньше не были покрыты!
> 120 000+ дополнительных задач, собранных на базе реальных PR.
> Качество — задачи отфильтрованы и размечены с помощью ансамбля LLM. Также мы обогатили их метаданными и добавили интерфейсы, которые проверяются в тестах.

Вместе с датасетом мы дропаем техрепорт со всеми деталями нашего пайплайна и прогонами моделей.

📄 Статья и датасет

👾 Наш Discord (мы там онлайн, залетайте с фидбеком и вопросами).

✉️ Пост в X

Если есть любые мысли, идеи, предложения - приходите!

🔁 Буду благодарен за репост и пересылку!

3🔥25❤1🍌1

332 views11:45

About

Blog

Apps

Platform