Хабр / ML & AI
477 subscribers
5.45K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
[Перевод] От «равных» весов к «умным»: OTPO для более точного Alignment LLM

LLM уже умеют многое, но качество их ответов по-прежнему упирается в тонкую настройку под человеческие предпочтения. Direct Preference Optimization стал стандартом де-факто для алайнмента, но у него есть фундаментальный изъян: все токены в ответе считаются равнозначными. Для человека же очевидно, что слово «Париж» в ответе на вопрос о столице важнее любого предлога или союза. В этой статье мы разбираем свежий метод OTPO, который предлагает решение через оптимальный транспорт и учится поднимать вес смысловых токенов, оставляя служебные на заднем плане. Читать далее

#otpo #alignment_llm #алайнмент #llm #взвешивание_токенов | @habr_ai