Хабр / ML & AI
483 subscribers
5.48K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Сегодня через API стала доступна новая модель YandexGPT 3 Lite. Одним из ключевых этапов её обучения, как и в случае с другими недавними моделями, стал этап выравнивания (Alignment), включающий в том числе стадию обучения с подкреплением (RL). Пожалуй, без этого этапа мы бы не смогли добиться такого роста в качестве, который был необходим для запуска новых возможностей и сервисов (например, Нейро). Поэтому эту статью мы полностью посвятим особенностям выравнивания моделей. 

На тему Alignment и RL было написано уже немало статей. Кажется, любой ML-инженер уже, так или иначе, сталкивался или читал о них. Поэтому мы хоть и напомним базовую информацию, но всё же сфокусируемся на тех деталях реализации, которые не на слуху. 

Читать далее

#яндекс #языковые_модели #alignment #reinforcement_learning #machine_learning #llm #машинное_обучение #rl #yagpt | @habr_ai
Эмоциональное принятие решений в LLM: исследование, которое мы показали на NeurIPS 2024

Привет, Хабр! Меня зовут Михаил, я — младший научный сотрудник группы «ИИ в промышленности» в AIRI. В этом году на конференции NeurIPS 2024 мы представили работу, посвященную сложной теме современного ИИ — эмоциональным большим языковым моделям (LLM) В целом понятно, что LLM умеют так или иначе эмулировать эмоции, ведь их обучают по большей части на данных, сгенерированных человеком. А человек — весьма эмоциональное создание. Но

что такое правильная эмуляция?

насколько правильно происходит эта эмуляция?

достаточно ли однораундовых бенчмарков, чтобы убедиться в правильной реакции на эмоциональные промпты?

Отвечая на первый вопрос, в рамках нашего исследования мы решили, что наиболее востребованными будут две «правильных» реакции на эмоциональные промпты. Первая — полное отсутствие реакции, строгая оптимальность. Вторая — эмоциональные реакции, согласованные с человеком (эмоциональный алайнмент). Такого агента можно использовать для моделирования социальных и экономических экспериментов, да и общаться с ним потенциально будет приятнее.

А вот для того, чтобы ответить на оставшиеся вопросы мы написали нашу работу. Давайте разбираться вместе!

Читать далее

#alignment #llm #эмоциональный_интеллект #эмоции_ai | @habr_ai
Как мы создавали новый LLM-переводчик Яндекса

Меня зовут Николай Карпачёв, я руковожу группой базового качества перевода в Яндексе. Недавно мы впервые разработали модель документного перевода на основе YandexGPT и, используя различные оптимизации, уже применяем её в Поиске, Умной камере, а также в нейропереводчике Яндекс Браузера. Кроме того, мы протестировали новую модель на независимом международном бенчмарке DiBiMT, где заняли первое место по качеству англо-русского перевода.

Читать далее

#llm #машинный_перевод #nlp #alignment #yandexgpt #яндекс #machine_learning | @habr_ai
От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей AI из передовых международных университетов и технологических компаний.

Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем. Читать далее

#ai #machine_learning #deep_learning #large_language_models #multi_agent_systems #reinforcement_learning #prompt_engineering #rag #alignment #jailbreak | @habr_ai
LLM на прокачку: практический гайд по Alignment

Мы в Точка Банке делаем свою LLM. Чтобы она работала хорошо, недостаточно просто обучить её на куче текстов. Для получения осмысленного и предсказуемого поведения модели, нужен Alignment — дообучение с учётом предпочтений и ограничений. В статье расскажу, какие методы применяют в современных моделях, и как мы адаптировали их под себя. Читать далее

#llm #reinforcement_learning #alignment #optimization #safety | @habr_ai
[Перевод] Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

Что если ошибочные ответы модели — не мусор, а ценный обучающий материал? В данной статье мы разберём метод Hindsight Instruction Relabeling (HIR), который позволяет дообучать LLM модели иногда даже лучше, чем RLHF. Кроме того, данный метод требует меньшего количества вычислений, не использует дополнительные модели и вдобавок ко всему максимально использует имеющийся датасет. Читать далее

#hindsight_instruction_relabeling #llm #rlhf #fine_tuning #alignment | @habr_ai
[Перевод] От «равных» весов к «умным»: OTPO для более точного Alignment LLM

LLM уже умеют многое, но качество их ответов по-прежнему упирается в тонкую настройку под человеческие предпочтения. Direct Preference Optimization стал стандартом де-факто для алайнмента, но у него есть фундаментальный изъян: все токены в ответе считаются равнозначными. Для человека же очевидно, что слово «Париж» в ответе на вопрос о столице важнее любого предлога или союза. В этой статье мы разбираем свежий метод OTPO, который предлагает решение через оптимальный транспорт и учится поднимать вес смысловых токенов, оставляя служебные на заднем плане. Читать далее

#otpo #alignment_llm #алайнмент #llm #взвешивание_токенов | @habr_ai
[Перевод] Humans-in-the-loop vs synthetic data: за что идёт борьба на рынке AaaS

Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить?

Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе. Читать далее

#llm #ai #scale_ai #genai #synthetic_data #fine_tuning #mlops #rlhf #human_in_the_loop #alignment | @habr_ai