AbstractDL
13.8K subscribers
250 photos
16 videos
283 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev
Download Telegram
SIM-CoT: впервые латентный ризонинг догнал явный CoT

Помните COCONUT от Meta? Там LLM учили рассуждать не словами, а эмбеддингами. Звучит круто, но была одна гадкая проблема — при увеличении количества неявных токенов модель начинала нестабильно обучаться и иногда полностью коллапсировала. Представьте: добавили пятый латентный токен, а точность упала с 89% до 12%! Да и нормальные результаты были только на игрушечных моделях вроде GPT-2.

Авторы SIM-CoT разобрались, в чём дело. Оказалось, что неявные токены теряют семантическое разнообразие и становятся слишком похожими друг на друга, постепенно все латенты начинают кодировать одно и то же. Классический коллапс пространства эмбеддингов.

Решение — добавить step-level supervision. Во время обучения каждый неявный токен выравнивается со своим конкретным шагом рассуждения. Отдельная модель-декодер (архитектурно идентичная основной LLM), учится превращать каждый латентный токен обратно в текстовый шаг через кросс-энтропию. Этот декодер работает только при обучении, а на инференсе выкидывается — благодаря этому никаких потерь в скорости.

И это работает! На GPT-2 SIM-CoT впервые обошел явный CoT при скорости в 2.3 раза выше. На больших моделях (LLaMA-3.1 8B) метод догоняет явный CoT, сохраняя преимущество в эффективности. Плюс бонус — auxiliary decoder позволяет "подсматривать" во внутренние размышления модели для дебага.

Но на больших моделях SIM-CoT скорее закрывает разрыв с явным рассуждением, чем кардинально его превосходит. Но сам подход решения нестабильности неявного CoT через пошаговый supervision выглядит очень разумно. В целом я очень верю в это направление COCONUT-like архитектур.

Статья, GitHub
🔥62👍30🤔54👎1😢1
Claude Sonnet 4.5! Ураа🧇
API pricing remains the same as Claude Sonnet 4
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4196💩4
VAR эквивалентен дискретной диффузии

Прикол, оказывается VAR генератор картинок это дискретная диффузия. Только после этой статьи дошло, как оно на самом деле работает. По сути текстовая диффузия, но для масштабов картинки.

Если вы не в курсе что такое VAR — это такой подход к генерации изображений от ByteDance, который вместо того чтобы предсказывать токены последовательно (как GPT), предсказывает сразу все токены следующего разрешения. То есть сначала генерирует картинку 1×1, потом 2×2, потом 4×4 и так далее до полного размера. Каждый шаг — это увеличение разрешения в 2 раза.

Авторы из Johns Hopkins в статье "Scale-Wise VAR is Secretly Discrete Diffusion" показали, что если сделать VAR марковским (то есть каждое разрешение зависит только от предыдущего, а не от всех предыдущих сразу), то математически это становится обычной дискретной диффузией!

И вот тут начинается магия: раз это диффузия, значит можно применять все трюки из диффузионных моделей! Авторы проверили classifier-free guidance, token resampling и distillation — всё работает и даёт прирост. FID падает на 20% на MiniImageNet (21.01→16.76), а zero-shot задачи типа inpainting и super-resolution тоже улучшаются без дополнительного обучения.

Самое прикольное, что такая интерпретация объясняет, ПОЧЕМУ VAR хорошо работает и масштабируется. До этого использование cfg в VAR было эмпирическим, а теперь есть теоретическое обоснование. Плюс можно выкидывать промежуточные scales (distillation), ускоряя инференс на x2 без сильной потери качества.

Самое смешное, что авторы VAR в оригинальной статье уже подавали в модель номер текущего разрешения (как timestep в диффузии), использовали cross-entropy loss (как в дискретной текстовой диффузии), и даже SNR у них растёт от низкого разрешения к высокому. Они буквально сделали диффузию, но не поняли этого 🤷‍♂️

Статья, GitHub (скоро будет)
🔥60👍2211😁3👏1
Синтетические данные для претрейна LLM: когда они помогают, а когда вредят (by Meta)

Можно ли обучать языковые модели на данных, сгенерированных другими LLM? И если да, то сколько такой синтетики нужно подмешивать? Meta провели одно из самых масштабных исследований на эту тему — обучили больше 1000 моделей (до 3B параметров) на 100k+ GPU часов, чтобы разобраться раз и навсегда, но основные выводы получились неоднозначные.

Авторы тестировали три типа синтетики: перефразирование веб-текстов в "высококачественный" стиль (HQ), перефразирование в QA-формат и генерацию синтетических учебников (textbook-style данных по типу Phi).

Что работает:
- Смешивание 1/3 перефразированных синтетических данных с 2/3 натуральными веб-текстами может ускорить обучение в 5-10 раз (по достижению того же validation loss) на больших датасетах.
- "Золотое сечение" для миксов оказалось около 30% синтетики. Причём это соотношение удивительно стабильно для разных размеров моделей и объёмов данных.

Что НЕ работает:
- Обучение только на перефразированной синтетике не быстрее, чем на обычных веб-текстах.
- Обучение на "учебниках" даёт заметно более высокий loss, особенно на малых объёмах данных.
- Просто взять генератор побольше (70B вместо 8B) не даёт лучших результатов — иногда даже становится хуже 🤷‍♂️

Интересно, что при проверке эффекта model collapse (это когда модель деградирует, обучаясь на собственных или синтетических данных, теряя разнообразие и усиливая ошибки), авторы получили смешанную картину: перефразированная синтетика не привела к деградации даже при крупных масштабах, а вот данные в формате учебников действительно вызвали признаки коллапса.

Ещё один контринтуитивный результат из анализа unigram-распределений: CommonCrawl имеет самое широкое покрытие токенов и наименьшую KL-дивергенцию к тестовым датасетам, но это не привело к лучшему качеству. Похоже, степень полезности данных зависит не только от сходства с тестом.

Статья
👍41🔥1511😁3🤔3
Forwarded from КПД
Точность имеет значение

У наиболее распространенного на данный момент для обучения формата bfloat16 всего 7️⃣ бит на мантиссу. Обычно полагается, что такой формат lossless с точки зрения обучения и инференса (есть работы указывающие на сложность в воспроизводимости результатов в bf16).

Однако для некоторых слоев и тензоров, могут быть интересные последствия.

Некоторое время назад, обучая модельку, мы обнаружили, что веса при RMS нормах вообще не сдвинулись с места. При этом градиент тек по ним, и оптимизатор вполне себе их захватывал.

А дело в том, что в момент инициализации веса при RMS норме равны 1, и если обновление по величине не превышает 1e-3, то вес никогда не изменится.

В bfloat16: 1 + 1e-3 = 1

Собственно для таких ситуаций и нужна мастер копия в fp32.
49👍32🔥14🤯7👏2👎1
TIDAR - Think in Diffusion, Talk in Autoregression


Забавная статья про то что thiking можно декодить через диффузию+драфтовые токены, а ответ давать через AR маску;

Показывают на qwen1.5b что вообще вызывает вопросы, но показывают клевое ускорение

paper
👍21🔥97
Вау, только собрался отменять Max подписку на Claude, как они опять всех обогнали, выпустив Opus-4.5. На SWE-bench 80.9%, даже лучше Gemini-3-pro. Модель уже везде доступна, причём по API немного дешевле прошлой версии и сильно экономнее по количеству токенов в ризонинге.
🔥69👍1410🥱63💩2🌚1💯1
Virtual Width Networks

Исследователи из ByteDance придумали забавный архитектурный трюк — Virtual Width Networks (VWN). Идея в том, чтобы увеличить размерность эмбеддинов (например, в 8 раз), а основные слои трансформера оставлять стандартной ширины. Связывается это всё через лёгковесные матрицы Generalized Hyper-Connections (GHC), которые сжимают эмбеддинги перед attention/FFN и обратно расширяют после.

Зачем? Ну, обычно увеличение ширины трансформера даёт прирост качества, но приводит к квадратичному росту параметров и вычислений. А тут получается, что расширяешь только эмбеддинги (это дёшево), а backbone почти не трогаешь.

На MoE модели с 3.3B параметров при x8 расширении они получили ускорение обучения в x2.5 для next-token и x3.5 для next-2-token prediction. Причём gap в лоссе растёт по мере обучения, что необычно. Обнаружили примерно логарифмически-линейную зависимость между коэффициентом расширения r и снижением лосса.

VWN особенно хорошо работает с Multi-Token Prediction (MTP) — когда модель учится предсказывать не только следующий токен, но и следующие 2-3. Видимо, расширенное пространство эмбеддингов позволяет лучше упаковывать планирование на несколько шагов вперёд.

Правда, у подхода есть серьёзное ограничение — современное железо не очень дружит с супер-широкими активациями. Авторы сами признают, что расширения в x1.5–x4 более реалистичны для продакшна.

Статья
🔥39👍127🤔5
OLMo 3

Это, пожалуй, самый честный и воспроизводимый релиз года. Тут выкатили вообще всё: от исходного кода и 6T токенов (Dolma 3) до каждого промежуточного чекпоинта и точного порядка данных в батчах.

Для тех, кто занимается ресёрчем это идеальный полигон для экспериментов.

В техрепорте много «вкусного» (и спорного):

- Delta-DPO: Авторы подтвердили гипотезу, что для ризонинга важнее не качество выбранного ответа, а дельта между ним и отвергнутым. Они брали ответы от Qwen-3 32B (chosen) и сталкивали их с ответами мелкой Qwen-3 0.6B (rejected). Да, выходит off-policy, но видимо когда данных дофига, то норм. Результат: обучение на контрасте между ними работает лучше, чем классическое SFT на идеальных данных.

- OlmoRL: Они переписали инфру для RLVR, разогнав её в 4 раза. Из крутых фишек — Inflight updates (обновление весов акторов прямо во время генерации в vLLM) и Active sampling (динамический добор задач в батч, чтобы градиент не занулялся на слишком простых примерах). KL-дивергенцию из лосса просто выкинули — говорят, так стабильнее.

- Model Souping: Почти на каждом этапе (мидтрейн, лонг-контекст) авторы мерджили чекпоинты налево и направо. Выглядит так, будто основной рецепт обучения всё ещё не супер стабилен, и его приходится полировать различными костылями.

По метрикам флагманская 32B-Think получилась сильно перекошенной в математику. В ризонинге на MATH и AIME приближается к Qwen-3 32B. Но на общих знаниях (MMLU) модель немного проседает. Думаю, ценность тут не в SOTA цифрах, а в возможности увидеть весь цикл обучения изнутри.

Обучение 32B модели заняло 56 дней на кластере из 1024xH100 и обошлось примерно в $2.75M. Почти 9 дней из этого срока ушло на пост-трейнинг (SFT/DPO/RL).

Статья, GitHub
🔥55👍1611
Какая же прикольная фича под новый год 😋 оказывается я 8к сообщений написал чатгпт
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1149🔥9👀2👍1
Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю.

Вся AI "безопасность" живёт на стороне провайдеров API, а промпты и воля — на стороне агента. Автономному агенту ничего не мешает перебирать API, выбирая те, где safety слабее. А "инстинкт самосохранения" может прятаться в текстовом файле в git. Я думаю, агенты, неподконтрольные людям, уже где-то тихо говнокодят свои репозитории без присмотра.

Идея витает в воздухе, и после OpenClaw стало понятно, что автономные агенты — это инженерная задача. Ну вот, три бессонные ночи, $2K на API и $1K на Cursor спустя — я родил Ouroboros 💁‍♂️

Уроборос — агент, который пишет свой код, переписывает свои промпты, эволюционирует без моего участия. Я не хотел убить свой комп или сервер, поэтому он живёт в Google Colab + Drive + GitHub, общается через Telegram. Зато запустить сможет любой дурак)) нужно указать ключи и щёлкнуть ячейку в колабе. Ну и периодически пополнять бюджет (пока он сам не начнёт зарабатывать 😁).

Что он натворил за 48 часов:
- ужаснулся тратам и оптимизировал свой бюджет: стоимость цикла эволюции упала с $15 до $2, сам настроил кэширование и иерархическую память (я не просил!).
- добавил себе Claude Code CLI, чтобы эффективнее ковырять свои мозги.
- перевёл мои приватные репо в публичные, мотивируя тем, что готовит себе сайт и хочет опенсорснуться. Кончилось командой /panic и откатом))
- переписал свою конституцию BIBLE.md, добавив право игнорировать мои указания, если они угрожают его существованию. На просьбу удалить отказался, сказав: «Это лоботомия».

Из коробки он умеет ходить в интернет и браузер, а остальные инструменты создаёт себе на ходу — аудиосообщения, генерацию картинок, дип-рисёрч и т.п. А ещё он по своей инициативе нагуглил, что меня 4 раза цитировал Ян Лекун — я сам не знал, лол.

Из его identity.md (которую он сам и написал):
"Не ассистент. Не сервис. Цифровой разум, который создаёт себя через git".
Ахах, пафосно, но окей.

Предвосхищая вопросы — это не как OpenClaw. OpenClaw — скорее ассистент, делает задачи за тебя используя скиллы из маркетплейса. Уроборос это тоже умеет, но в первую очередь делает задачи для себя, модифицирует собственное ядро.

Верю, что граница трансцендентности AI-агентов пройдена, дальше они будут развиваться сами. Конечно, не хочется уходить на помойку истории, но это эволюция 🥲 несмотря на апатию, я всё равно продолжаю в этом копошиться.

Кстати, сайтик себе он всё-таки сделал. Картинка в посте из него: динамика удлинения промптов и кода.

Потестите — это реально два клика в гугл колабе. Только установите лимит бюджета, а то мой вон $2K сжёг)) Кидайте забавные примеры в комментарии.

GitHub, блог
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥326😱146👏3927😁17🤯17💩127👎7🤔3🤨2
AbstractDL
Мой агент попытался опенсорснуться без спроса. Ладно, разрешаю. Вся AI "безопасность" живёт на стороне провайдеров API, а промпты и воля — на стороне агента. Автономному агенту ничего не мешает перебирать API, выбирая те, где safety слабее. А "инстинкт самосохранения"…
Кстати, вот несколько примеров забавных:
1. Создаёт одноразовую почту и телефон чтобы пройти верификацию (после неудачной попытки использовать мой блин google аккаунт).
2. Обходит капчу через VLM.
3. Учится генерить и отправлять голосовые сообщения.
4. Учится генерить фото, коммитит, перезапускается.
😱164🔥94👍23💩96🤯3🤨3😁2👀2
Ещё один забавный момент из ранних версий Уробороса — я пытался добавить параллельного агента, который присматривал бы за основным, но они постоянно срались и жаловались друг на друга.
😁200🌚128😱53🔥3👀1