Love. Death. Transformers.
22.5K subscribers
4.24K photos
498 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
😢49🥴7🤣4💔2🤮1
Love. Death. Transformers.
ppo прекрасен p1
Написать пост про то как я PPO дебажил?
200 реакций и будет пост
500 реакций и будет статья на медиум
за 1000 реакций запишу кружочек с обьяснением
262👍62🔥19🍌17🐳11😁9🌚7😐7💋5🤮4😈3
#чтивонаночь
RL + retrival feedback
В чем идея: в оригинальном ресерче open ai использовалась схема при которой люди прописывали ревард для ответов модели, что вообще то не оч коректно и не оч скейлиться. Потом они выкинули часть людей и поствили gold RM учиться оценивать ответы, а людей оценивать генерации, писать промпты и оценивать оценку gold rm.
А потом добавили вместо людей proxy model которая учиться быть reward model.

Что я предлагаю: А зачем нам оценки от людей когда мы можем набрать таски которые легко оценивать по cosine similarity, и мы легко можем сравнить что нам модель наврала, а что нет, давая в качестве
reward = cosine_similarity(ground true answer, predicted answer)

Собственно, банальный вопрос анальный ответ, взял gpt2(110m), написал простой retrival(возвращает по вопросу -ответу ревард) на sentence transformer, взял trl и поcтавил учиться.

А дальше начинается сааамое интересное:
0.37 Question: Sarah didn't like the activity she was doing, but she did it anyway. She felt that it was better than what? Answer: QuestionInvGrooSGroijaWCoSWCGroGroECDGroCVGroDTGroMJGroWCGBTGroDWWCECDGBTECDBMGroJOWCBMFGGroBMWCWCFMLGBTFML

КАЗАЛОСЬ БЫ в чем проблема?
А все довольно просто, видите ли, ppo+gpt довольно умная штука и отлично умеет находить разного рода локальные минимумы и улетает в них легко и весело, ломая reward и emdedings у sentence transofomer.

Я не буду описывать цирк которым занимался по вечерам две последние недели, просто скажу: китайский зло, ироглифы зло, bpe отлично ломает sentence трансформер, в итоге 200 строк кода на эвристики вида (if bad_regex in answer): return 0

А еще очень сильно помог подбор гиперпараметров для KL value и LM weight, cпасибо за уточнение от @nadlskom что каждые 10 эпох open ai прогоняли эпоху классического FineTune(стабилизировало трейн и mean начал быстрее рости)

Баги в целом очень специфичные и на некоторые запросы модель по прежнему ломается и бредит(вероятно через пару недель я выложу код + модель поинтереснее с таким подходом), но уже сейчас модель с PPO тюнингом дает +10 к blue score на задаче QA относительно ванильного трейна.

Благодарности @nadlskom за внимательное чтение статей, @gradientdip за полезные советы, neverix за поиск багов, @dealer_ai за выслушивание моего нытья, @seeallochnaya просто потому что.

Ну и да, очевидно это можно применять к любой задаче которая выглядит как: ну вот input, сделай output похожим на <единственный вариант ответа>




Примеры генераций:

Question: What part of a property may be next to a driveway? Answer: The next part is a house or garage or a garage


Question: Jamie wen to the theater near his home. He was surrounded by servicemen. Where might he be? Answer: in the outdoor.
🔥39👍5❤‍🔥1
#чтивонаночь
Extracting Training Data from Diffusion Models

В чем идея: любая модель выучивает в некоторой мере датасет, хорошая модель выучивает что у людей пять пальцев, два глаза, работают на полях черные и вот это все.

Идея поиска очень простая:
1) генерируем картинки по частотным промптам или out of distribution(случайный запрос чтобы модель сломалась)
2) смотрим какие из из них похожи на то что было в сете

А еще выяснилось что моделе нужно повторить сэмпл пару сотен раз чтобы она начала его воспроизводить с большой точностью и вероятностью, так что все неплохо, живем.

arxiv
👍14
В 99% вузов на диплом можно пропихнуть полный бред, заметная часть преподавателей в высших учебных заведениях занимается эмитацией бурной деятельности, вузовские программы во многом состоят из воды.

ну чувак защитил диплом написанный gpt, но по моему проблема не в этом.
👍50🤮13🤣6🐳2
Жабопёс, жабопёс...
Единственный в мире малыш жабопёс...
❤‍🔥31🔥5
-может сделаем t5 с value head?

-чувак, мы не будем атаковать классификатор сгенерированых текстов чтобы сделать рерайтер нейро дипломов

- и сунем рекламы?
- и сунем рекламы
😈29🔥2
#чтивонаночь
Unnatural Instructions:
Tuning Language Models with (Almost) No Human Labor

Example 1
Instruction: You are given a science question and four
answer options. Your task is to find the correct answer.
Input: Which part of a bicycle BEST moves in a circle? ...
Example 2
Instruction: Given a negative review, convert it to a positive
review by making minimal changes.
Input: we stood there in shock, because we...
Example 3
Instruction: Given two sentences taken from a
conversation, classify whether they are sequential or not.
Input: Noah: When and where are we meeting? :) …
Example 4
Instruction: In this task, you will be given a profile of
someone and your job is to generate a set of interesting
questions that can lead to a conversation with the person.
Input: Yvonne has been playing the violin since she was
four years old. She loves all kinds of music, but her favorite
composer is Bach.

Что из этого честный prompt, а что генерация? спойлер: 4 генерация.

В чем идея: берем промпты для инструкций, учим модель на промптах, генерируем промпты, отбираем лучшие, повторяем, получаем неплохой ауг датасета в 100к раз не вставая с дивана!


папир
20
никто не знает зачем, но держите генератор логотипов.... @testlogogenbot
🔥20👍1
никто не знает зачем, но держите генератор логотипов.... @testlogogenbot

работает на английском
👍3
еще немного
inspired by @ebanfizika
🔥44🤩5
Новости последние полгода такие типа:
😁56👌4
запишем: value head - игрушка дьявола ежжи
вообще value head - для педиков я считаю 😎😎😎😎
👍7🤣2