О, я слышала, что у тебя стартап с retention выше чем у тиндера. Меня до сих пор поражает, что трансформеры умеют не только становиться грузовиком, а потом обратно, но и собирать батч токенов в attention матрице, чтобы чатгпт могла притворитсья, что она эмпатияно слушает мое нытье. Теперь ты уйдешь от своих моделей к настоящей женщине?
😁99🥴17🔥6❤3 2
Forwarded from (sci)Berloga Всех Наук и Технологий
https://www.arxiv.org/abs/2509.19162
Мы выложили на архив третью статью проекта CayleyPy.
(Первая статья была принята на самую топовую конференцию NeaurIPS как spotlight - то есть в топ3%.)
А также представляем первый релиз нашей библиотеки - CayleyPy - для работы методами МЛ/RL с графами размера гугл: https://github.com/cayleypy/cayleypy (Кидайте звезды на наш гитхаб - они нам очень помогут). Библиотека также ставится через pypi: https://pypi.org/project/cayleypy/ .
Сама статья с упором на математику - предложено около 200 новых математических гипотез полученных с помощью вычислительных экспериментов с нашей библиотекой, которая позволяет делать расчеты - которые за пределами существовавших ранее систем компьютерной алгебры. Если у Вас есть знакомые математики занимающиеся теорий групп или графов - свяжите их с нами - @alexander_v_c . Slides at Oberwolfach.
А также мы рады всем добровольцам - кто знает Питон или математику и имеет несколько свободных часов - будем рады всем участникам - пинганите @alexander_v_c
Чтобы бенчмаркать методы и одновременно двигать математику и биоинформатику - мы создали более 10 челленжей на Каггл.
Всем кому интересен Каггл - тоже присоединяйтесь
https://www.kaggle.com/competitions/cayleypy-christophers-jewel
https://www.kaggle.com/competitions/cayleypy-glushkov
https://www.kaggle.com/competitions/CayleyPy-pancake
https://www.kaggle.com/competitions/cayleypy-transposons
Мы выложили на архив третью статью проекта CayleyPy.
(Первая статья была принята на самую топовую конференцию NeaurIPS как spotlight - то есть в топ3%.)
А также представляем первый релиз нашей библиотеки - CayleyPy - для работы методами МЛ/RL с графами размера гугл: https://github.com/cayleypy/cayleypy (Кидайте звезды на наш гитхаб - они нам очень помогут). Библиотека также ставится через pypi: https://pypi.org/project/cayleypy/ .
Сама статья с упором на математику - предложено около 200 новых математических гипотез полученных с помощью вычислительных экспериментов с нашей библиотекой, которая позволяет делать расчеты - которые за пределами существовавших ранее систем компьютерной алгебры. Если у Вас есть знакомые математики занимающиеся теорий групп или графов - свяжите их с нами - @alexander_v_c . Slides at Oberwolfach.
А также мы рады всем добровольцам - кто знает Питон или математику и имеет несколько свободных часов - будем рады всем участникам - пинганите @alexander_v_c
Чтобы бенчмаркать методы и одновременно двигать математику и биоинформатику - мы создали более 10 челленжей на Каггл.
Всем кому интересен Каггл - тоже присоединяйтесь
https://www.kaggle.com/competitions/cayleypy-christophers-jewel
https://www.kaggle.com/competitions/cayleypy-glushkov
https://www.kaggle.com/competitions/CayleyPy-pancake
https://www.kaggle.com/competitions/cayleypy-transposons
🔥18❤5
Forwarded from quant barbie
встречаться с хфтшником это всё весело и прикольно пока тебе не говорят что 2 минуты это вообще-то много
😁57👍7🤡6 1
Недавно писала большой блогпост про эволюцию LLM и VLM на teletype. Коротко о том, как они появились и какие тенденции наблюдаются сейчас. Девочки из «N айтишниц заходят в бар» на ее основе сделали обзор по теме введения в агентность и весь этот хайп вокруг неё. Ну а сейчас по традициям небезызвестных Назарова и pymeniral на просторах инсты, мы устраиваем обзор на обзор на обзор!
Девочки пишут о том, как пришли к мультиагентным системам и эпически сравнивают в конце современные мультиагентные системы с микросервисной бэкенд архитектурой. Идите читать ориг пост, а то так можно и прифигеть от неожиданного заявления, там вас хотя бы подготовят плавно🤣
В общем, поверхностно паттерны-то конечно и могут быть похожи, но на мой взгляд это слишком грубое сравнение. Агент – это не просто обёртка над моделью, как пишут девочки. Агент должен обладать возможностями обозревать контекст, ДУМАТЬ и в итоге приходить к действиям. Чему качественно научить его, кстати, довольно трудно.
И вот тут начинается самое интересное🤡 . Если мы хотим, чтобы агенты реально ДУМОЛИ, а не просто вызывали API по очереди как микросервисы, нам нужен RL. Но классический RL для агентов требует построения сложных энвайренментов с прописыванием всех возможных действий, состояний и reward-функций. А это тот еще камень преткновения, если мы хотим и систему не перегрузить, и нахуй не сесть, когда будем смотреть метрики бенчей🤡
На эту тему мне понравилась статья, вышедшая на днях (Simulating Environments with Reasoning Models for Agent Training), которая предлагает радикальное решение – вместо реальной среды с API/MCP, тут на ваш вкус, как говорится, использовать LLM-симулятор, который может давать полноценный фидбек и выступать оценщиком правильности вызова тулов агента. По сути, это ответ на вопрос «как обучить агента быть умнее, чем просто микросервис?». Последнее время я занимаюсь агентами на работе, и это большой волнующий вопрос насколько реально мы можем заменить наш базовый сложный пайплайн реварда на базовую оценку LLM-кой, по сути упростив условия до минимума
Какие тут плюсы можно увидеть:
💛 мы сможем одновременно дать комплексную оценку по нашим правилам в виде reward-сигнала
💛 а также сразу получить текстовое объяснение, которое можно положить в контекст модели при RL-обучении
По сути над этим и экспериментируют авторы. Они предлагают два фреймворка:😅 Simia-SFT (сложный пайплайн подготовки данных для SFT-обучения через LLM-имитацию среды). Он включает следующие шаги:
💛 Валидация качества seed-траекторий
💛 Привязка генерации к валидным action spaces
💛 Синтез разнообразных мультираундовых взаимодействий
💛 Проверка структурной корректности
🙋♀️ И Simia-RL (фреймворк для RL-обучения без реальной имплементации среды). У нас появляются две части:
💯 циферка reward (0 или 1), которая дальше участвует в градиентной оптимизации
✏️ текстовое объяснение этого фидбека, которое мы кладём в контекст модели к следующему шагу
LLM-симулятор здесь играет двойную роль. Он генерирует feedback на действия агента (симулирует ответы тулов и ошибки) и выставляет финальную награду за всю траекторию, анализируя, была ли задача успешно завершена. Важный момент в том, что симулятор не просто смотрит, сказал ли агент "задача выполнена", а реально анализирует результат выполнения
Так что да, N айтишниц правы. Паттерны проектирования мультиагентных систем действительно напоминают микросервисы. Но если мы хотим получить настоящих агентов, которые умеют думать и адаптироваться, а не просто вызывать API по цепочке, нам нужен RL. А чтобы не умереть от боли при построении env-ов, можно использовать LLM-симуляторы. Вот такая эволюция от "обёрток над моделями" к реально умным агентам
Девочки пишут о том, как пришли к мультиагентным системам и эпически сравнивают в конце современные мультиагентные системы с микросервисной бэкенд архитектурой. Идите читать ориг пост, а то так можно и прифигеть от неожиданного заявления, там вас хотя бы подготовят плавно
В общем, поверхностно паттерны-то конечно и могут быть похожи, но на мой взгляд это слишком грубое сравнение. Агент – это не просто обёртка над моделью, как пишут девочки. Агент должен обладать возможностями обозревать контекст, ДУМАТЬ и в итоге приходить к действиям. Чему качественно научить его, кстати, довольно трудно.
И вот тут начинается самое интересное
На эту тему мне понравилась статья, вышедшая на днях (Simulating Environments with Reasoning Models for Agent Training), которая предлагает радикальное решение – вместо реальной среды с API/MCP, тут на ваш вкус, как говорится, использовать LLM-симулятор, который может давать полноценный фидбек и выступать оценщиком правильности вызова тулов агента. По сути, это ответ на вопрос «как обучить агента быть умнее, чем просто микросервис?». Последнее время я занимаюсь агентами на работе, и это большой волнующий вопрос насколько реально мы можем заменить наш базовый сложный пайплайн реварда на базовую оценку LLM-кой, по сути упростив условия до минимума
Какие тут плюсы можно увидеть:
По сути над этим и экспериментируют авторы. Они предлагают два фреймворка:
LLM-симулятор здесь играет двойную роль. Он генерирует feedback на действия агента (симулирует ответы тулов и ошибки) и выставляет финальную награду за всю траекторию, анализируя, была ли задача успешно завершена. Важный момент в том, что симулятор не просто смотрит, сказал ли агент "задача выполнена", а реально анализирует результат выполнения
Так что да, N айтишниц правы. Паттерны проектирования мультиагентных систем действительно напоминают микросервисы. Но если мы хотим получить настоящих агентов, которые умеют думать и адаптироваться, а не просто вызывать API по цепочке, нам нужен RL. А чтобы не умереть от боли при построении env-ов, можно использовать LLM-симуляторы. Вот такая эволюция от "обёрток над моделями" к реально умным агентам
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍14❤7🔥3
Дорогие папищеки, админка хочет выползать почти что трогать траву и лицезреть людей вокруг. Если вы знаете дата завтраки в Белграде закиньте мне в комментарии. Ну или поставьте реакцию кисы - 👩🦰 и я соберу сходку, если будет достаточно
Please open Telegram to view this post
VIEW IN TELEGRAM
💅21 20🥴5❤2
Хорошенький хендбук по GEMM, в котором автор проходится от наивной реализации, добавляя поэтапно оптимизации: коалесцированный доступ, использование shared memory, тильинг, вычисления в регистрах, тензорные ядра. Все это в финале собирается в CUTLASS от NVIDIA и получается Learn CUTLASS the hard way!
Kapil Sharma
Learn CUTLASS the hard way!
Walkthrough of optimization techniques for GEMMs from a naive fp32 kernel to CUTLASS bf16 kernel
🔥18👍5❤1😢1
что-то на DL-ском
Дорогие папищеки, админка хочет выползать почти что трогать траву и лицезреть людей вокруг. Если вы знаете дата завтраки в Белграде закиньте мне в комментарии. Ну или поставьте реакцию кисы - 👩🦰 и я соберу сходку, если будет достаточно
Все, те самые 17 человек🥹 устраиваем в Белграде сходку 6/7 декабря. Заходим сюда в чат https://t.me/+GjyP-jsLufVhNmEy , дальше разберемся (надеюсь распределение женщин будет не как в ШАДе, 2 организую )
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Сходка на DL-ском. Белград
Karina invites you to join this group on Telegram.
😁14🤮1
🤗Huggingface последний год уважаемо упарываются в образование студентов в плане AI. Выкатили новый блог пост про поддержку nanochat от Karpathy, который в целом и предназначается для образования молодого поколения, чтобы те могли потрогать микро LLM которая написана в примерно 500 строк кода на голом torch с хорошей инженерной проработкой и соверемнными методами стабилизации обучения.
То есть можно поиграться при желании с претреном, потратив 100 долларов на 4 часа с 8 H100, ну или взять готовые чекпоинты поиграться, хз. Более того, инженеры hf справедливо замечают, что можно потыкаться будет в разного рода встроенные механизмы удобные в экосистеме трансформерс. Например квантизовать с lamma.cpp за 0$ или поэксперементирлвать с инференсом.
В общем, в моих глазах выглядит, как крайне хороший механизм для практики, а в особенности с сочетанием их очень полного блогпоста «The Smol Training Playbook» о всех стадиях трена, про который написали при выходе ну примерно все тг каналы….
🤗 Всем школьничкам, и тем кто в душе школьничек, почитать подробнее можно вот тут
То есть можно поиграться при желании с претреном, потратив 100 долларов на 4 часа с 8 H100, ну или взять готовые чекпоинты поиграться, хз. Более того, инженеры hf справедливо замечают, что можно потыкаться будет в разного рода встроенные механизмы удобные в экосистеме трансформерс. Например квантизовать с lamma.cpp за 0$ или поэксперементирлвать с инференсом.
В общем, в моих глазах выглядит, как крайне хороший механизм для практики, а в особенности с сочетанием их очень полного блогпоста «The Smol Training Playbook» о всех стадиях трена, про который написали при выходе ну примерно все тг каналы….
🤗 Всем школьничкам, и тем кто в душе школьничек, почитать подробнее можно вот тут
huggingface.co
The Smol Training Playbook - a Hugging Face Space by HuggingFaceTB
Read through "The Smol Training Playbook" to learn the secrets and best practices for building world-class Large Language Models. The playbook includes detailed insights and visualizations to guide...
1🔥25❤11👍4 4 1
Forwarded from ML Underhood
Сегодня вышел техрепорт Alice AI
Ниже — краткий обзор ключевых технических решений и результатов, а подробнее обо всех деталях, экспериментах и выводах можно почитать в полной версии отчёта на Хабре.
Alice AI LLM
Alice AI LLM Search
Alice AI ART
Alice AI VLM
Инфраструктура инференса
ML Underhood
Ниже — краткий обзор ключевых технических решений и результатов, а подробнее обо всех деталях, экспериментах и выводах можно почитать в полной версии отчёта на Хабре.
Alice AI LLM
На этапе претрейна улучшили качество данных: фильтрация и аугментация повысили фактологичность ответов (+4–7% на внутреннем бенчмарке). Также собрали специализированные данные по школьным предметам, что дало прирост на образовательных задачах — модель обошла конкурентов по истории, литературе, математике и русскому языку. Усилили навыки программирования и математики за счёт алгоритмических и кодовых данных (+4,5 п.п. на LiveCodeBench). В alignment-фазе перешли к единому RLHF-пайплайну с мультиаспектным ревордом (полезность, фактологичность и др.) вместо одного «суперсигнала».
Alice AI LLM Search
Пайплайн объединяет планировщик поисковых запросов, фильтрацию и ранжирование результатов и генерацию ответа, а также поддерживает мультимодальные источники — тексты, изображения, видео и геоданные — для более полных ответов. Для обучения использовали RLHF с мультиаспектными ревордами вместо одной метрики, что упростило оценку сложных ответов. В RL-тренировке перешли к онлайн-методу GRPO, сократили этапы обучения, повысили эффективность GPU и в итоге улучшили полезность и актуальность ответов.
Alice AI ART
Обучающий датасет проанализировали с помощью Alice AI VLM, извлекли структурированные JSON-описания изображений и выявили дисбалансы в данных. На основе этого датасет для файнтюна переработали и дополнили недостающими категориями запросов, чтобы лучше соответствовать реальным пользовательским сценариям. Архитектура модели сделана двухступенчатой: на первом этапе формируется общая композиция изображения, на втором — прорабатываются высокочастотные детали. Дополнительно обучили отдельный «рефразер» — компактную LLM, которая преобразует сырые пользовательские промпты в детализированное описание сцены, сохраняя исходный смысл перед генерацией.
Alice AI VLM
Объём данных претрейна увеличили с 400 до 600 млрд токенов и расширили контекст до 32 тыс. Обновили OCR-датасет, улучшив качество чтения текста с изображений, включая рукописный, и описание визуального контента. VLM тесно интегрирован с текстовой LLM и обучается с теми же RLHF-подходами. Дополнительно в систему добавлен специализированный VLM-«решатель» для задач, требующих глубокой визуально-математической экспертизы.
Инфраструктура инференса
Инференс оптимизировали, повторно использовав KV-кэш для одинаковых частей промпта. Также помогла полная FP8-квантизация весов, активаций и KV-кэша. За счёт этого объём KV-кэша сократился почти вдвое. Дополнительно внедрили спекулятивное декодирование EAGLE-3, повысив пропускную способность генерации.
В результате новый инференс-стек обеспечивает около 5,8× ускорение по сравнению с BF16 и примерно 1,3× относительно лучших открытых решений, что позволило достичь целевых показателей скорости.
ML Underhood
👍16❤8💅8🔥4🤮2
Пока мы с командой тащим до нашего релиза, коллеги, которые занимаются VLM, уже релизнули что-то очень крутое😎 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10
Forwarded from ML Underhood
Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
🔥9❤4👍4 2
Это я в такой вайбе под конец года сижу пишу итоги года в статьях и на работу. 2 лайка (от меня и моей бести) и ищу розовые ручки с розовыми помпонами, чтобы сохранять бимбо вайб в 2026
❤24💅11 8🤮2
Релизы зарелижены, поэтому время показать папищекам, что я жива💀 . Все подводят какие-то итоги года, типо New year Вайбик, а у меня Вайбик был повспоминать что принес 2025 год в эйай мир
💅 Закрыли эру «закинем больше денег на компьют и станет хорошо»
В январе китайцы выпустили Deepseak R1 и устроили всем веселую неделю. Модель показала результаты на уровне o1 при заявленных $5.6M на трейн. NVIDIA потеряла 17% за день, твиттер рыдал, а я сидела в кафе в Минске и ахуевала
Главный поинт тут был не в цене, а в том как они это сделали)). Чистый RL без sft на страте + GRPO. Научили модель саморефлексии и перепроверке своих ответов
Отдельно обращу внимание на GRPO. Оно теперь абсолютно везде. В каждом моем дне и сердечке🥹 . Убиваем critic model – экономим до 50% памяти. Advantage считается относительно группы ответов
💅 Test-time compute scaling aka мы думаем дольше, значит это лучше
OpenAI зарядили o1 конечно еще в 2024, но несправедливо будет сказать, что 2025 год – это не год, когда все побежали делать ризонинг🍎 . Идея простая, вместо того, чтобы тренить дольше, надо дольше подумать на инференсе
S1 буквально показали, что можно с 1к примеров + форсингом бюджета (добавляем wait в генерацию, чтобы модель думала дольше) получить результаты уровня o1 на математике. sft на малом количестве семплов активирует capabilities ризонинга, которые были в модели после претрена
💅 Агенты. Как же я дрочу на агентов каждый день на работе
Ну это буквально главная тема 2025 года. Внедрили все компании и продолжают это делать
MCP от Антропика стал де-факто стандартом. Все компании подключились: OpenAI, Google и тд. В декабре Anthropic передали его в Linux Foundation под названием Agentic AI Foundation.
Claude Code, Cursor с background agents, Google Antigravity, AWS Kiro. 2025 стал буквально годом кредо «модель сама все сделает за ночь, пойду попью пиво». Подобие операторов также встраивается повсеместно, когда агентик тыкает курсорчиком вам по экрану
💅 Мультимодальность теперь видится скорее стандартом
Gemini 2.0 вышел с native image output. Не отдельная модель для генерации, а прям в одном потоке с текстом. GPT-4o в марте получил то же самое. Теперь можно в одном conversation и текст и картинки генерить и редактировать. Это меняет UX ужасно. Вместо сгенерируй картинку, а теперь отредактируй, а я потерял контекст начинай заново теперь один multi-turn где модель помнит что делала
💅 Синтетика. К 2030 году ее станет больше обычных данных??
Такое предсказывает Gartner. DeepSeak R1 distillation использует 800k синтетических семплов от большой модели для тренировки маленьких. Microsoft Phi использует синту для ризонинга. Главный риск тут – это model collapse. Когда тренируешь на своём же аутпуте. Но с правильными варификациями и миксовками с настоящими данными будет ок.
💅 Post-training > Pre-training
Теперь если просто скармливать модели ещё больше терабайтов текста, прирост качества уже не такой впечатляющий. Diminishing returns, как говорится. Зато выяснилось где настоящий буст: mid-training и post-training. Mid-training – это когда после основного претрейна добавляешь целевые данные. Типа если я хочу чтобы модель кодила хорошо на питоне, мне стоило бы долить больше подобных качественных данных в эту стадию). А post-training – это финальная доводка через SFT и RLHF.
Тут и появился RLVR. Суть в том, что если есть задачи, где ответ можно проверить объективно. Математика? У ответа есть правильное значение. Код? Можно запустить тесты. Не нужны люди, которые скажут "ну вот этот ответ мне нравится больше". Мы можем просто запускать автоматическую проверку.
💕 💕 💕 💕 💕 💕 💕 💕 💕 💕 💕
Ну и моя скромная номенация на мастхев прочтения за этот год, если вы пропустили достается
Sebastian Raschka State of LLM Reasoning.
Лучший обзор inference scaling
В январе китайцы выпустили Deepseak R1 и устроили всем веселую неделю. Модель показала результаты на уровне o1 при заявленных $5.6M на трейн. NVIDIA потеряла 17% за день, твиттер рыдал, а я сидела в кафе в Минске и ахуевала
Главный поинт тут был не в цене, а в том как они это сделали)). Чистый RL без sft на страте + GRPO. Научили модель саморефлексии и перепроверке своих ответов
Отдельно обращу внимание на GRPO. Оно теперь абсолютно везде. В каждом моем дне и сердечке
OpenAI зарядили o1 конечно еще в 2024, но несправедливо будет сказать, что 2025 год – это не год, когда все побежали делать ризонинг
S1 буквально показали, что можно с 1к примеров + форсингом бюджета (добавляем wait в генерацию, чтобы модель думала дольше) получить результаты уровня o1 на математике. sft на малом количестве семплов активирует capabilities ризонинга, которые были в модели после претрена
Ну это буквально главная тема 2025 года. Внедрили все компании и продолжают это делать
MCP от Антропика стал де-факто стандартом. Все компании подключились: OpenAI, Google и тд. В декабре Anthropic передали его в Linux Foundation под названием Agentic AI Foundation.
Claude Code, Cursor с background agents, Google Antigravity, AWS Kiro. 2025 стал буквально годом кредо «модель сама все сделает за ночь, пойду попью пиво». Подобие операторов также встраивается повсеместно, когда агентик тыкает курсорчиком вам по экрану
Gemini 2.0 вышел с native image output. Не отдельная модель для генерации, а прям в одном потоке с текстом. GPT-4o в марте получил то же самое. Теперь можно в одном conversation и текст и картинки генерить и редактировать. Это меняет UX ужасно. Вместо сгенерируй картинку, а теперь отредактируй, а я потерял контекст начинай заново теперь один multi-turn где модель помнит что делала
Такое предсказывает Gartner. DeepSeak R1 distillation использует 800k синтетических семплов от большой модели для тренировки маленьких. Microsoft Phi использует синту для ризонинга. Главный риск тут – это model collapse. Когда тренируешь на своём же аутпуте. Но с правильными варификациями и миксовками с настоящими данными будет ок.
Теперь если просто скармливать модели ещё больше терабайтов текста, прирост качества уже не такой впечатляющий. Diminishing returns, как говорится. Зато выяснилось где настоящий буст: mid-training и post-training. Mid-training – это когда после основного претрейна добавляешь целевые данные. Типа если я хочу чтобы модель кодила хорошо на питоне, мне стоило бы долить больше подобных качественных данных в эту стадию). А post-training – это финальная доводка через SFT и RLHF.
Тут и появился RLVR. Суть в том, что если есть задачи, где ответ можно проверить объективно. Математика? У ответа есть правильное значение. Код? Можно запустить тесты. Не нужны люди, которые скажут "ну вот этот ответ мне нравится больше". Мы можем просто запускать автоматическую проверку.
Ну и моя скромная номенация на мастхев прочтения за этот год, если вы пропустили достается
Sebastian Raschka State of LLM Reasoning.
Лучший обзор inference scaling
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via...
General reasoning represents a long-standing and formidable challenge in artificial intelligence. Recent breakthroughs, exemplified by large language models (LLMs) and chain-of-thought prompting,...
100❤33👍5🔥5 2
Forwarded from Запрети мне псевдолейблить
Однажды я убил два месяца, пытаясь понять, как писать из Spark, который управляется Airflow в Redis Cluster (101) и в итоге справился. Смешно, но я видимо был первым и последним человеком, который столкнулся с этой проблемой на всем stack overflow.
В итоге, через 23 дня я просто руками перебрал все варианты и сам себе ответил. Проект тот кстати помер, так и не дойдя до релиза, так что о эффективности связки я так и не узнал.
С тех пор я совершенно не перестал дружить разные инструменты в очень странных конфигурациях и встречайте:
Я взял коннектор датадога для Dagster и расширил его функционал так, чтобы он работал ну хотя бы так же гибко, как оригинальный Datadog.
Вы тоже так можете.
Dagster — это оркестратор дата-процессов: штука, которая превращает «кучу джобов/скриптов» в нормальную систему с графом зависимостей, ретраями, расписаниями, параметрами и понятным UI. Нужен, чтобы пайплайны не были магией на кронах: быстро понять, что упало, что именно пересчитать, и чтобы прод не держался на вере и одном человеке. А, ну или если коротко- это Airflow здорового человека и сразу на стерройдах
Datadog — это наблюдаемость “всё в одном”: метрики, логи, трейсы, алерты и дашборды, которые склеивают картину от «почему сервис тормозит» до «вот конкретный запрос и вот строчка лога». Нужен, чтобы дебажить и мониторить прод не по ощущениям, а по телеметрии. Вот мы его и используем, чтобы понять, что какие-то важные продовые джобы померли.
Это наверно не самая горячая связка из двух инструментов, но надеюсь кому-то кроме меня будет полезна. Опять же, изи вклад в популярный инструмент. У меня кстати есть бывший коллега, который в дагстере успел поработать: @nadya_nafig
Делитесь своими изи-контрибьюшнами в комментах. А я пойду убежу 5 немцев подписать петицию о признании вклада в open source как службу обществу.
В итоге, через 23 дня я просто руками перебрал все варианты и сам себе ответил. Проект тот кстати помер, так и не дойдя до релиза, так что о эффективности связки я так и не узнал.
С тех пор я совершенно не перестал дружить разные инструменты в очень странных конфигурациях и встречайте:
Я взял коннектор датадога для Dagster и расширил его функционал так, чтобы он работал ну хотя бы так же гибко, как оригинальный Datadog.
Вы тоже так можете.
Dagster — это оркестратор дата-процессов: штука, которая превращает «кучу джобов/скриптов» в нормальную систему с графом зависимостей, ретраями, расписаниями, параметрами и понятным UI. Нужен, чтобы пайплайны не были магией на кронах: быстро понять, что упало, что именно пересчитать, и чтобы прод не держался на вере и одном человеке. А, ну или если коротко- это Airflow здорового человека и сразу на стерройдах
Datadog — это наблюдаемость “всё в одном”: метрики, логи, трейсы, алерты и дашборды, которые склеивают картину от «почему сервис тормозит» до «вот конкретный запрос и вот строчка лога». Нужен, чтобы дебажить и мониторить прод не по ощущениям, а по телеметрии. Вот мы его и используем, чтобы понять, что какие-то важные продовые джобы померли.
Это наверно не самая горячая связка из двух инструментов, но надеюсь кому-то кроме меня будет полезна. Опять же, изи вклад в популярный инструмент. У меня кстати есть бывший коллега, который в дагстере успел поработать: @nadya_nafig
Делитесь своими изи-контрибьюшнами в комментах. А я пойду убежу 5 немцев подписать петицию о признании вклада в open source как службу обществу.
❤8😁1