Сиолошная

Теперь вернемся к основной теме, Large Scale Reward Modeling. Проблема с подходом выше в том, что он плохо масштабируется - чтобы собрать в 10 раз больше данных, нужно заплатить в 10 раз больше за разметку. А ещё такая разметка очень дорога, если хочется получить чистые, выверенные данные, а не рандомные клики. OpenAI в своих экспериментах на момент 21го года использовали порядка 50-60к размеченных пар. По меркам машинного обучения и NLP это не то чтобы много.

Автор работы в рамках OpenAI Schoolars задался вопросом: можно ли получать эти данные в больших количествах и почти бесплатно? Ведь у нас есть интернет, и нужно просто поискать. Ответ нашелся быстро - Reddit. Это почти идеальная система, ведь на ней есть сотни тысяч постов, для каждого из них сотни комментариев, и можно придумать способы оценки этих самых комментариев. Много лайков за час, да еще и медальки получил? Скорее всего, это классный текст, уместный. За 4 года получил 3 апвоута и 1 дизлайк? Meh.

Что было сделано:
- соскраплен сабреддит /r/WritingPrompts, где люди в ответ на начало истории пытаются дописать продолжение (идеально для генеративных моделей!)
- собран автоматический датасет пар сравнений комментариев-ответов. Пара формируется только среди ответов +- одинаковой длины, +- одного времени публикации, но при этом с разницей в рейтинге (апвоуты минус дизлайки) больше 100
- из датасета эвристиками вытащено и провалидировано ~900 примеров. Отложено для замера метрик, о них ниже.
- на этом натренирована модель оценки, которая говорит, что один комментарий лучше или хуже другого. Всего в трейне порядка 350к пар, что существенно больше датасетов, используемых OpenAI. Понятно, что сам датасет шумнее, и ограничен в домене, но всё же.
- на отложенной выборке замерены метрики моделей разных размеров и обученных на разном проценте данных (см. скриншот). Лушчий результат accuracy в районе 74%. Не кажется таким хорошим, однако тут всплывает проблема сравнения предпочтений. Даже в рамках исследователей OpenAI обычно согласованность оценок на уровне 75-78%. То есть это потолок, в который мы упираемся. Грусть :(

Видно, что большая модель GPT-2 учится почти моментально, и затем выходит на плато. Модели поменьше постепенно догоняют её, хотя совсем маленькая (117M) всё же отстает значимо.

🖥 Что можно сделать дальше (и что не было сделано), или идея для пет-проджекта:
используя эту Reward Model (она опубликована, кстати, как и датасет), с помощью RL обучить генеративные модели дописывать комментарии на Reddit. Затем запустить бота, который публикует их и через API собирает разметку, дообучая RM уже напрямую из свежесобранного фидбека. Улучшаем модель, и так по кругу! RL from Human Feedback в чистом виде! Начать читать по теме можно тут или тут.
...или придумать что-то своё. Перетянуть на другой сабреддит, на другой форум, повторить то же на русском - да что угодно!

...а человек, защитивший проект, с тех пор работает в OpenAI. Морали нет 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

6.4K viewsedited 20:21