ML Underhood

Начинаем новую неделю с новой конференцией

В Вене стартовала ACL 2025. В ближайшие дни мы будем рассказывать обо всём самом интересном, что увидим на мероприятии, а сейчас поделимся занимательной статистикой.

— Всего на конференцию зарегистрировались около 20 тысяч авторов.
— 51% авторов — из Китая, ещё 18,6% — из США.
— У 67% работ, поданных на ACL, в названии есть LLM.
— Почти так же часто, как LLM, в названиях встречается двоеточие — оно есть в 65% заголовков.

Рассказывайте в комментариях, о чём, связанном с ACL, вам интересно было бы почитать. А, может быть, вы сами на конференции? Тогда обязательно делитесь впечатлениями!

#YaACL25

ML Underhood

🔥7👍4❤3😁3

2.01K views08:05

ML Underhood

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

Как проходит ACL 2025 👀

Продолжаем рассказывать, что увидели и услышали на конференции: листайте фото и видео!

В этом году ACL состоялась в Austria Center Vienna — конференц-зале в центре Вены. Красиво не только внутри, но и снаружи. Иногда на докладах людно, иногда — не очень.

Поразило невероятное количество постеров: около 250 только в одном зале. Работы очень разные, от «денег нет, но вы держитесь» до лаконичных постеров на А4. Мы выбрали для вас самые интересные из них — о трендах и статьях читайте в Душном NLP:

В Вене проходит 63-я ежегодная конференция ассоциации компьютерной лингвистики — ACL 2025

Интересное с конференции ACL 2025

Кадры для вас сделали и отобрали ❣ Алексей Березникер и Александр Николайчик

#YaACL25

ML Underhood

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤6👍4

2.22K views13:11

ML Underhood

Как в Яндекс Погоде использовали фичу для таргета, чтобы улучшить точность предсказания осадков

Яндекс запустил новые модели краткосрочного прогноза осадков — подробнее о них можно почитать на Хабре. А специально для нашего канала ML-разработчик в Яндекс Погоде Дмитрий Стефеев рассказал о важной идее, которая позволила обойти возникшие в начале работы трудности.

Цель — создать модель регрессии для прогноза выпавших за час осадков (в мм). Основными фичами являются прогнозы глобальных численных моделей (NWP).

Главная проблема заключалась в том, что радарные данные, которые мы используем в качестве таргета для обучения, значительно отличаются от прогноза численных моделей на входе. Всё из-за сложности прогноза осадков. Очень легко промазать как по времени, так и пространству. Все функции потерь и их комбинации, которые мы пробовали, приводили к тому, что модель прогнозировала значительно меньше осадков, чем нужно, боясь промазать. Можно было бы попробовать перейти от регрессии к классификации и подбирать пороги, но их, скорее всего, пришлось бы подбирать для каждого шага прогноза (как делали, к примеру, в Metnet от Google) и, вероятно, они бы отличались для разных мест на Земле и разных сезонов. Это значительно усложнило бы поддержку модели и увеличило вероятность непредсказуемого поведения.

Тогда нам пришла идея использовать прогноз осадков одной из численных моделей в фичах в качестве второго таргета, помимо радаров. Получается, что модель начала частично обучаться к собственной фиче! Сначала мы пробовали выставлять фиксированные веса лоссов к радарному таргету и прогнозу численной модели. Стало значительно лучше, но местами проблема сохранялась. Тогда мы сделали предположение, что веса должны зависеть от согласованности прогноза численных моделей на входе отдельно в каждой точке прогноза: чем более согласованный прогноз дают численные модели, тем меньший вес мы используем для радарного лосса и больший — для лосса численной модели.

В ходе экспериментов мы пришли к простой формуле для весов. Сначала считаем медиану для прогнозов осадков всех численных моделей в каждой точке прогноза. Далее считаем среднюю абсолютную разность прогнозов численных моделей и медианы, а затем делим полученное значение на медиану, клипая результат по подобранным границам. Полученное значение W мы применяем для лосса к радарам, а для лосса к прогнозу численной модели используем вес 1 - W. И такой трюк позволяет полностью устранить проблему с уменьшением объёма осадков — по сути это можно считать регуляризацией выхода модели к численному прогнозу, так как мы привязываем прогноз к физической модели, не давая ему отойти слишком далеко.

Далее мы добавили домножение полученных весов на дополнительные веса, которые линейно зависят от шага прогноза, чтобы по мере увеличения шага снижать вес лосса к радарам и увеличивать к численному прогнозу до подобранного граничного значения.

На изображении выше в первой строке показан пример радарного таргета по первым 12 часам прогноза. Ниже — прогноз нашей модели и прогноз численной модели в дополнительном таргете. Для удобства отображения значения мм приведены к трём классам осадков. Видно, что на первых шагах, прогноз модели больше похож на радары, а далее становится ближе к прогнозу численной модели, что позволяет улучшать качество прогноза на первых шагах за счёт исторических радарных данных, если они доступны на входе модели.

ML Underhood

🔥9😁3❤2😍1

2.01K views14:08

ML Underhood

Возвращаемся на ICML 2025

Собрали ещё несколько интересных работ вдогонку прошедшей конференции. Сегодня — об оптимизации больших моделей, новых SGD-подходах и работе на тему conformal prediction.

The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training

Крайне любопытная теоретическая статья, показывающая (без доказательства — прямо на постере: «we don't know why»), что график лоссов LLM-претрейна с cosine и WSD lr-шедулерами выглядит практически так же, как график теоретических верхних оценок расстояния финальной точки оптимизации от точки оптимума для выпуклых негладких задач при использовании SGD с cosine/WSD-шедулерами. Что ещё любопытнее — теоретические оценки выводятся для SGD, однако графики LLM-претрейна авторы запускали с Adam — использование адаптивных оптимизаторов ведёт к таким же результатам. Авторы также утверждают, что шедулер WSD удобнее для экспериментов со scaling law.

General framework for online-to-nonconvex conversion: Schedule-free SGD is also effective for nonconvex optimization

Статья берёт новый алгоритм оптимизации Schedule-Free из работы The Road Less Scheduled, демонстрировавшей лучшие на момент публикации результаты в бенчмарке методов оптимизации, и разрабатывает инструменты для теоретического анализа в невыпуклых случаях. Идея Schedule-Free в том, что большинство шедулеров на самом деле похожи на усреднение итераций — алгоритм выглядит схожим образом, как хитрое усреднение параметров итераций. Достоинство подхода — алгоритму не нужно наперёд знать число итераций T для задания расписания шедулера. Текущая статья — теоретическая работа, показывающая, как алгоритм ведёт себя в невыпуклых сценариях. Значительное количество статей по методам оптимизации доказываются для задачи онлайн-обучения в терминах regret — в данной статье авторы также решили воспользоваться достоинствами regret-формулировок для анализа.

Decision Theoretic Foundations for Conformal Prediction: Optimal Uncertainty Quantification for Risk-Averse Agents

На конференции было как минимум 10 (а скорее — больше) статей на тему conformal prediction — её сейчас активно исследуют. Conformal prediction — когда модель предсказывает не один label, а множество, и нужно предсказать такое множество, которому с заданной уверенностью принадлежит правильный ответ. Мы пообщались с автором этой работы — он подробнее рассказал о подходе, математических идеях, а также о том, как эти идеи соотносятся с реальными задачами. Выглядит как хорошая точка входа, чтобы разобраться в теме.

Интересное отобрал ❣ Алексей Морозов

ML Underhood

#YaICML25

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍5🔥5

2.27K views13:16

Теперь вы знаете, кому сказать спасибо за прямые включения с KDD 2025

В начале августа в Торонто прошла KDD 2025 — конференция о поиске знаний и анализе данных:

— Обзор свежих публикаций читайте в Рекомендательной.
— Главные цифры конференции и лучшие работы ищите в Душном NLP.

Запомнил и записал для вас всё самое интересное один из наших коллег — инженер Сергей Мить. Именно его портрет рисует роборука на видео выше.

Привёз вам новости ❣ Сергей Мить

ML Underhood

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🥰4🔥1👀1

1.78K views13:22

ML Underhood

И ещё несколько кадров, чтобы проникнуться атмосферой конференции.

P. S. KDD 2026 анонсировали в Южной Корее: надеемся, про «Игру в кальмара» они просто шутят!

ML Underhood

❤11🔥7👍6🤩1

2.38K views13:22

ML Underhood

Self-rewarding Language Models

Сегодня разберём статью о том, как научить языковую модель самостоятельно оценивать качество своих ответов и итеративно улучшаться за счëт этого.

Direct Preference Optimization (DPO)

Раньше большие языковые модели учили примерно так:

1. Предобучение без учителя на огромном корпусе текстов;
2. SFT — supervised fine-tuning;
3. Создание датасета предпочтений (сравнение качества нескольких гипотез LLM между собой вручную);
4. Обучение reward-модели на датасете предпочтений.
5. RL — reinforcement learning.

Метод DPO (Direct Preference Optimization) предлагает заменить обучение reward-модели и RL на supervised fine-tuning LLM на датасете предпочтений с некоторой лосс-функцией (подробнее в оригинальной статье про DPO).

Метод авторов статьи

Авторы предлагают учить LLM не только отвечать на вопросы пользователя (instruction following), но и оценивать эти ответы с помощью механизма LMM-as-a-Judge. Благодаря этому можно автоматизировать создание датасета предпочтений.

Более подробно, взяв предобученную модель M₀, делают еë supervised fine-tuning на instruction following (IFT данные) + оценивание качества ответа (EFT данные) — и так получают модель M₁. Далее начинается итеративный процесс, при котором:

1. Модель Mᵢ сама генерирует датасет предпочтений (генерирует гипотезы и оценивает их) обозначаемый AEFT(Mᵢ);
2. Модель Mᵢ дообучается на AEFT(Mᵢ) с помощью DPO — так получаем новую модель Mᵢ₊₁.

Весь процесс выглядит так:

M₀ — предобученная LLM без fine-tuning.
M₁ — модель, инициализированная M₀, а после дообученная на IFT+EFT в режиме supervised fine-tuning.
M₂ — модель, инициализированная M₁ и дообученная на AEFT(M₁) в режиме DPO.
M₃ — модель, инициализированная M₂ и дообученная на AEFT(M₂) в режиме DPO.

Авторы утверждают, что метод не только помогает нейросетям лучше справляться с инструкциями, но и улучшает их способности к оцениванию ответов. Доработав Llama 2 70B на трёх итерациях этого подхода, они получили модель, которая превосходит многие существующие системы в таблице лидеров AlpacaEval 2.0: например, Claude 2, Gemini Pro и GPT-4 0613.

Более подробно итерации обучения, применяемые в подходе, описали в канале «Душный NLP».

Разбор подготовил ❣ Никита Фёдоров
ML Underhood

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤‍🔥9🔥5❤2👀1

1.99K views10:31

About

Blog

Apps

Platform