PPO для YandexGPT 4 Lite
Недавно инженеры Яндекса использовали онлайн-обучение с подкреплением для YandexGPT 4 Lite. На файнтюне этой модели использовались как DPO, так и PPO. Павел Темирчев, один из разработчиков команды алаймента Яндекса, рассказал нам, как внедряли эти методы.
Proximal Policy Optimization (PPO) — метод, который предполагает применение размеченных асессорами данных для обучения reward-модели. Это итеративный и весьма трудоёмкий процесс. Сложность, в частности, заключается в том, что модель должна прямо во время обучения генерировать ответы. Кроме того, необходимо хранить в памяти GPU не только обучаемую, но и ряд вспомогательных моделей. Например, value-модель, которая содержит информацию о наградах и используется в алгоритме как бейзлайн.
Важной частью внедрения PPO для обучения YandexGPT 4 Lite стало создание правильной инфраструктуры — от этого зависит примерно 50% успеха. Кроме того, была проведена большая работа с обучающим множеством. Инженеры перебрали разные варианты того, на чём можно обучать модель.
Также было важно не дать модели переобучиться под reward-модель. Для этого существует практика штрафа, который накладывается, если обучаемая модель слишком далеко ушла от SFT. В Яндексе попробовали применить разные варианты штрафов, чтобы выбрать наиболее подходящий.
Из хаков использовали, например, нормализацию advantage, то есть разницы награды за ответ и средней награды. Этот трюк позволяет получить более стабильную сходимость взамен теоретических гарантий.
На алайменте YandexGPT 4 Lite проводили сперва онлайн RL — PPO, а затем DPO. Комбинация методов позволила получить хорошие результаты, которые превосходят полученные от каждого метода отдельно.
Делитесь своими мыслями о PPO и DPO в комментариях!
ML Underhood
Недавно инженеры Яндекса использовали онлайн-обучение с подкреплением для YandexGPT 4 Lite. На файнтюне этой модели использовались как DPO, так и PPO. Павел Темирчев, один из разработчиков команды алаймента Яндекса, рассказал нам, как внедряли эти методы.
Proximal Policy Optimization (PPO) — метод, который предполагает применение размеченных асессорами данных для обучения reward-модели. Это итеративный и весьма трудоёмкий процесс. Сложность, в частности, заключается в том, что модель должна прямо во время обучения генерировать ответы. Кроме того, необходимо хранить в памяти GPU не только обучаемую, но и ряд вспомогательных моделей. Например, value-модель, которая содержит информацию о наградах и используется в алгоритме как бейзлайн.
Важной частью внедрения PPO для обучения YandexGPT 4 Lite стало создание правильной инфраструктуры — от этого зависит примерно 50% успеха. Кроме того, была проведена большая работа с обучающим множеством. Инженеры перебрали разные варианты того, на чём можно обучать модель.
Также было важно не дать модели переобучиться под reward-модель. Для этого существует практика штрафа, который накладывается, если обучаемая модель слишком далеко ушла от SFT. В Яндексе попробовали применить разные варианты штрафов, чтобы выбрать наиболее подходящий.
Из хаков использовали, например, нормализацию advantage, то есть разницы награды за ответ и средней награды. Этот трюк позволяет получить более стабильную сходимость взамен теоретических гарантий.
На алайменте YandexGPT 4 Lite проводили сперва онлайн RL — PPO, а затем DPO. Комбинация методов позволила получить хорошие результаты, которые превосходят полученные от каждого метода отдельно.
Делитесь своими мыслями о PPO и DPO в комментариях!
ML Underhood
❤10🔥7👍6
iCD — метод быстрого редактирования изображений
Мы уже рассказывали о восьми статьях, которые Yandex Research представит на конференции NeurIPS. Сегодня подробнее остановимся на одной из них, посвящённой методу инвертируемой дистилляции (Invertible Consistency Distillation, iCD).
Современные модели хороши в генерации изображений, но когда дело касается редактуры — могут возникать проблемы. Основная проблема заключается в необходимости точной инверсии: кодирования изображения в латентное пространство и последующей реконструкции, которая должна сохранить исходные детали и при этом интегрировать текстовые запросы. Существующие методы редактирования требуют больших вычислительных ресурсов и значительного времени — вплоть до 50 и более шагов инференса.
iCD призван решить этот недостаток. Суть метода заключается в создании двунаправленных моделей: одна из них кодирует изображения в латентное пространство, другая — декодирует их обратно. Таким образом, можно довольно быстро отредактировать картинку. Скажем, добавить на фотографию какой-нибудь объект или заменить собаку на медведя или енота.
Чтобы улучшить соответствие между текстовым запросом и сгенерированным изображением используют технику Dynamic Classifier-Free Guidance (Dynamic CFG). На начальных этапах преобразования, когда уровень шума высок, CFG не работает, что способствует разнообразию генераций. На поздних этапах CFG работает, обеспечивая более точное соответствие текстовому промпту.
Благодаря всему этому, редактирование изображения с использованием метода iCD занимает всего 7–8 шагов инференса.
ML Underhood
Мы уже рассказывали о восьми статьях, которые Yandex Research представит на конференции NeurIPS. Сегодня подробнее остановимся на одной из них, посвящённой методу инвертируемой дистилляции (Invertible Consistency Distillation, iCD).
Современные модели хороши в генерации изображений, но когда дело касается редактуры — могут возникать проблемы. Основная проблема заключается в необходимости точной инверсии: кодирования изображения в латентное пространство и последующей реконструкции, которая должна сохранить исходные детали и при этом интегрировать текстовые запросы. Существующие методы редактирования требуют больших вычислительных ресурсов и значительного времени — вплоть до 50 и более шагов инференса.
iCD призван решить этот недостаток. Суть метода заключается в создании двунаправленных моделей: одна из них кодирует изображения в латентное пространство, другая — декодирует их обратно. Таким образом, можно довольно быстро отредактировать картинку. Скажем, добавить на фотографию какой-нибудь объект или заменить собаку на медведя или енота.
Чтобы улучшить соответствие между текстовым запросом и сгенерированным изображением используют технику Dynamic Classifier-Free Guidance (Dynamic CFG). На начальных этапах преобразования, когда уровень шума высок, CFG не работает, что способствует разнообразию генераций. На поздних этапах CFG работает, обеспечивая более точное соответствие текстовому промпту.
Благодаря всему этому, редактирование изображения с использованием метода iCD занимает всего 7–8 шагов инференса.
ML Underhood
🔥10❤6👍5
This media is not supported in your browser
VIEW IN TELEGRAM
NeurIPS 2024 в Ванкувере: первые цифры и впечатления
Вчера стартовала NeurIPS, одна из самых крупных и значимых конференций по машинному обучению. Для затравки — несколько интересных цифр:
⚪ 16 500 зарегистрированных участников (рекорд для конференции)
⚪ 4 037 статей основной секции
⚪ 460 статей по датасетам и бенчмаркам
А вот и впечатления первого дня.
Костя Лахман:
Катя Серажим:
Настя Беззубцева:
В следующих постах продолжим делиться инсайтами и трендами!
ML Underhood
#YaNeurIPS
Вчера стартовала NeurIPS, одна из самых крупных и значимых конференций по машинному обучению. Для затравки — несколько интересных цифр:
А вот и впечатления первого дня.
Костя Лахман:
Бесконечная очередь на регистрацию, которая, не останавливаясь, идёт змейкой. Кажется, на самом деле, это лента Мёбиуса, и нас обманывают.
Катя Серажим:
Если говорить про тренды, было уже два доклада с упоминанием специализированных Foundation Models: для автономного транспорта и e-commerce.
Настя Беззубцева:
В Exhibition Area крайне оживлённо. Провела там около двух часов — успела обойти только треть стендов и пообщаться с некоторыми участниками. Например, спросила у HR Tesla, дают ли они имена своим роботам — к сожалению, нет.
В следующих постах продолжим делиться инсайтами и трендами!
ML Underhood
#YaNeurIPS
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18❤7👍7😱1
Первый день NeurIPS: интересные доклады и немного инсайтов
На конференции сейчас находится Катя Серажим, руководитель управления качества поиска. Она поделилась впечатлениями от выступлений и поговорила с некоторыми участниками. Слово Кате.
Продолжаем следить за NeurIPS, будем делиться самым интересным.
ML Underhood
#YaNeurIPS
На конференции сейчас находится Катя Серажим, руководитель управления качества поиска. Она поделилась впечатлениями от выступлений и поговорила с некоторыми участниками. Слово Кате.
Понравился доклад от Waymo: AI for Autonomous Driving at Scale. Они обзорно рассказали про свой стек: используют трансформеры, пытаются создать собственную Foundation-модель для автономных машин и интегрируют VLM для разметки. Докладчик, правда, больше «лицо» проекта, а за подробностями отсылает к команде.
Интересный туториал Opening the Language Model Pipeline: A Tutorial on Data Preparation, Model Training, and Adaptation — с практическими советами по обучению LLM. Любопытно, что некоторые их выводы сходятся с нашими: например, 10k примеров для SFT (Supervised Fine-Tuning) и 100k для обучения с подкреплением по вознаграждению (Reward) оказались разумными цифрами.
А ещё пообщалась на экспо с исследователями из разных компаний и собрала немного любопытного:⚪️ Ресёрчер из Facebook поделился, что компания всё активнее вкладывается в обучение с подкреплением (RL). Считают, что задача претрейна уже решена, и теперь важно оптимизировать последовательность обучения (RS, DPO, PPO). Используют синтетику, меняя инстракты: например, из диалога о физике «делают» диалог о биологии.⚪️ А вот Google, как оказалось, по-прежнему ориентированы на улучшение результатов через претрейн. Говорят, что их новая модель не уступает на некоторых бенчмарках o1 как раз благодаря качественному предобучению.
Продолжаем следить за NeurIPS, будем делиться самым интересным.
ML Underhood
#YaNeurIPS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21🔥9👍7
Удаление облаков, трекинг антилоп и другие кейсы с NeurIPS
Продолжаем следить за NeurIPS 2024. Сегодня на связи Алексей Друца, Director, Technology Adoption at Yandex Cloud. Делимся его заметками о туториалах и статьях второго дня конференции.
Контент с NeurIPS продолжает залетать прямиком в вашу ленту. Будем на связи!
ML Underhood
#YaNeurIPS
Продолжаем следить за NeurIPS 2024. Сегодня на связи Алексей Друца, Director, Technology Adoption at Yandex Cloud. Делимся его заметками о туториалах и статьях второго дня конференции.
Первым привлёк внимание туториал Evaluating Large Language Models — Principles, Approaches, and Applications о базовых подходах к оценке LLM. Особенно полезно ознакомиться тем, кто сталкивается с острым желанием контрагентов решить все проблемы за счёт получения модели идеального качества. Мы-то с вами знаем, что копать надо ещё и в сторону продуктовых метрик. Подробнее об этом туториале — в канале Душный NLP.
Туториал Opening the Language Model Pipeline: A Tutorial on Data Preparation, Model Training, and Adaptation от ребят из Ai2. Базовый обзор того, как готовится LLM, из каких этапов состоит пайплайн её построения. Подробно описано, как работать с данными для обучения, обрабатывать, вычищать, принимать решения по ним. Разбираются этапы предобучения и постобучения.
А ещё — несколько статей с увлекательными и местами неожиданными кейсами.
To Believe or Not to Believe Your LLM: IterativePrompting for Estimating Epistemic Uncertainty
Авторы предложили метрику для оценки уровня неопределённости LLM и того, насколько ей можно доверять. Метод основан на итеративных промптах без привлечения внешних данных.
AllClear: A Comprehensive Dataset and Benchmark for Cloud Removal in Satellite Imagery
Кейс с датасетом об удалении облаков со спутниковых снимков. Исследователи определяют, что происходит под облаком, за счёт данных в других диапазонах спектра. Потенциально полезная вещь для тех, кто занимается картами.Облака — те что на небе, а не вычислительные.
SPIQA: A dataset for multimodal question answering on scientific papers
Датасет по мультимодальным вопросам и ответам из научных статей. Пример работы со сложными текстами, специфической терминологией и задачей поиска ответа. Особенность датасета — наличие картинок и таблиц (которые часто встречаются в научных статьях), а главное — вопросов и ответов по их содержанию. Прогнав несколько моделей и разных вариаций промтов, делают вывод, что использование полного текста статьи и приемов Chain-of-Thoughts приводит к значительно более высокому перформансу модели на датасете.
BuckTales: A multi-UAV dataset for multi-object tracking and re-identification of wild antelopes
Авторы с помощью дронов и искусственного интеллекта создали набор данных для изучения диких антилоп. Он позволяет отслеживать движения множества животных одновременно и распознавать каждую особь в сложных условиях дикой природы.
Контент с NeurIPS продолжает залетать прямиком в вашу ленту. Будем на связи!
ML Underhood
#YaNeurIPS
👍7🔥7❤5❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Атмосфера NeurIPS: стенды участников
На конференции представлены стенды как гигантов, так и малоизвестных компаний. Показываем те, которые привлекли наше внимание.
⚪ Amazon — основной акцент сделали на демонстрации технологий: посетители могут увидеть и попробовать решения в действии.
⚪ Alibaba Cloud — представляют себя как полнофункциональную платформу для инженеров.
⚪ Writer — фокус на оптимизации рабочих процессов для корпоративных клиентов.
⚪ Lambda — продвигают Private Cloud, представлены физические серверные стойки и оборудование.
⚪ Meta AI* — показывают Llama и демо других своих продуктов.
*Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
ML Underhood
#YaNeurIPS
На конференции представлены стенды как гигантов, так и малоизвестных компаний. Показываем те, которые привлекли наше внимание.
*Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
ML Underhood
#YaNeurIPS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥7❤6
Ещё немного атмосферных фото и видео
⚪ Команда Яндекса: встреча у стенда со статьёй.
⚪ Наша первая статья (PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression).
⚪ Аншлаг на докладе Fei-Fei Li (From Seeing to Doing: Ascending the Ladder of Visual Intelligence).
⚪ Масштабы и пространства конференции.
⚪ Новогодний робот на стенде Booster Robotics.
ML Underhood
#YaNeurIPS
ML Underhood
#YaNeurIPS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍6🔥5❤🔥3
Суцкевер на NeurIPS: хайлайты
Доклад Ильи Суцкевера на NeurIPS уже разобрали на цитаты. Больше всего обсуждают идеи о росте агентности, конце претрейна и закона масштабирования. Нам удалось послушать доклад на конференции — делимся моментами, которые показались важными.
Нерезиновые данные
Претрейна на данных из интернета скоро не будет — всё, что можно, уже собрали, а синтетика просто копирует старое. Будущее за уникальными проприетарными датасетами, а успех моделей будет зависеть не от их размера, а от качества данных, на которых они обучаются.
Конец scaling law
Больше не работает scaling law, который до сих пор точно предсказывал рост качества моделей при увеличении данных и вычислений. Но это не значит, что прогресс остановится: как с законом Мура, новые этапы развития технологий откроют другие способы оптимизации.
Будущее за агентами (умными)
Сейчас модели чаще всего повторяют то, что уже видели на этапе обучения. Агенты же смогут самостоятельно анализировать ситуацию и придумывать новые стратегии. Точного рецепта для создания таких агентов пока нет, но Илья уверен, что это вопрос времени.
Интуитивность и непредсказуемость
Будущее будет связано с самосознанием систем. Пока что моделям не хватает умения находить нестандартные решения, они опираются на заранее заложенные шаблоны. Когда ИИ научится рассуждать по-настоящему, системы станут интуитивнее и одновременно непредсказуемее.
Эволюция как подсказка для ИИ
Идея в том, что ИИ может развиваться по принципам природы: адаптироваться, «мутировать» и улучшаться. Илья провёл аналогию между развитием интеллекта у животных и масштабированием моделей. Генетические алгоритмы уже используют для оптимизации архитектур, в будущем модели смогут разрабатывать такие алгоритмы сами.
В конце доклада Илья сказал: “All kinds of stuff is possible” — уже распечатали и повесили этот слайд в офисе.
ML Underhood
#YaNeurIPS
Доклад Ильи Суцкевера на NeurIPS уже разобрали на цитаты. Больше всего обсуждают идеи о росте агентности, конце претрейна и закона масштабирования. Нам удалось послушать доклад на конференции — делимся моментами, которые показались важными.
Нерезиновые данные
Претрейна на данных из интернета скоро не будет — всё, что можно, уже собрали, а синтетика просто копирует старое. Будущее за уникальными проприетарными датасетами, а успех моделей будет зависеть не от их размера, а от качества данных, на которых они обучаются.
Конец scaling law
Больше не работает scaling law, который до сих пор точно предсказывал рост качества моделей при увеличении данных и вычислений. Но это не значит, что прогресс остановится: как с законом Мура, новые этапы развития технологий откроют другие способы оптимизации.
Будущее за агентами (умными)
Сейчас модели чаще всего повторяют то, что уже видели на этапе обучения. Агенты же смогут самостоятельно анализировать ситуацию и придумывать новые стратегии. Точного рецепта для создания таких агентов пока нет, но Илья уверен, что это вопрос времени.
Интуитивность и непредсказуемость
Будущее будет связано с самосознанием систем. Пока что моделям не хватает умения находить нестандартные решения, они опираются на заранее заложенные шаблоны. Когда ИИ научится рассуждать по-настоящему, системы станут интуитивнее и одновременно непредсказуемее.
Эволюция как подсказка для ИИ
Идея в том, что ИИ может развиваться по принципам природы: адаптироваться, «мутировать» и улучшаться. Илья провёл аналогию между развитием интеллекта у животных и масштабированием моделей. Генетические алгоритмы уже используют для оптимизации архитектур, в будущем модели смогут разрабатывать такие алгоритмы сами.
В конце доклада Илья сказал: “All kinds of stuff is possible” — уже распечатали и повесили этот слайд в офисе.
ML Underhood
#YaNeurIPS
❤12🔥7🆒4👏2👍1