Love. Death. Transformers.
22.5K subscribers
4.24K photos
498 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
mood:
47😁9
This media is not supported in your browser
VIEW IN TELEGRAM
Вот смотрите, так получается что lm и ppo не изучается в школе, но я изучил
🔥35😢1
👍75🏆41🤣16🔥4😍4😱3🤡1
🥰50😢11👍4🌭2💊1
Forwarded from DLStories
А мы открываем набор на весенний семестр школы глубокого обучения Deep Learning School!
#learning

DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем мы с языка Python и необходимой математики для понимания нейросетей, переходим к основам машинного обучения и обработки картинок, заканчиваем переносом стиля изображений и ГАНами.
- Вторая часть полностью посвящена темам NLP и обработки звука.

Две части курса можно проходить независимо. Можно пройти только первую часть или только вторую. Но обратите внимание, что для прохождения второй части нужно знать Python, понимать математику и основы нейросетей, о которых мы рассказываем в первой части курса.

Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями.

Сейчас идет набор на первую часть курса. На вторую часть набор откроется чуть позже, об этом сообщу отдельно.

Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий МФТИ. Среди них — я (Таня), буду вести у вас несколько лекций про CV, сегментацию и архитектуры сетей =)

Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.

Начинаем 18 февраля. Регистрация продлится до 26 февраля. Чтобы зарегистрироваться на курс, отсавьте заявку на этой странице. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме.

При регистрации вам нужно выбрать поток — базовый или продвинутый. Как выбрать свой поток, читайте на сайте в разделе FAQ. Также у нас есть группа школы ВКонтакте — там очень удобно следить за новостями.

Ответы на самые часто задаваемые вопросы по курсу вы также можете найти на сайте в разделе FAQ. Если остались вопросы, спрашивайте в комментариях к этому посту ⬇️ Постараюсь ответить на все. Также если в канале есть выпускники наших прошлых потоков, буду благодарна, если вы поделитесь своим опытом прохождения курса и поможете отвечать на вопросы =)

Ну и ждем вас в чатиках наших курсов в новом семестре!🥰
32👍9💩4👎1🔥1🤔1🤡1
Теперь простым языком что это:

1) вероятно один из лучших русскоязычных курсов и лучший бесплатный русскоязычный курс за исключением шада
2) вас действительно научат писать сетки, вы не будете руками считать chainrule, но вам довольно обзорно дадут практически всю необходимую информацию

Ну и немного похоже на cs23* с дополнениями + некоторые модули ведут действительно специалисты, а не промпт инженеры
👍55🔥8🍓2👎1
Forwarded from Блог Кучука
- Запустится ли код?
- Да
- А вот опытный кандидат заметил бы ловушку и предложил оптимизацию!
🤡84🌚29😁7🍓2
Опытный кандидат заранее выгорит и ловко ответит: а хочешь я тебе кину палку?
🌭54👍9
😢49🥴7🤣4💔2🤮1
Love. Death. Transformers.
ppo прекрасен p1
Написать пост про то как я PPO дебажил?
200 реакций и будет пост
500 реакций и будет статья на медиум
за 1000 реакций запишу кружочек с обьяснением
262👍62🔥19🍌17🐳11😁9🌚7😐7💋5🤮4😈3
#чтивонаночь
RL + retrival feedback
В чем идея: в оригинальном ресерче open ai использовалась схема при которой люди прописывали ревард для ответов модели, что вообще то не оч коректно и не оч скейлиться. Потом они выкинули часть людей и поствили gold RM учиться оценивать ответы, а людей оценивать генерации, писать промпты и оценивать оценку gold rm.
А потом добавили вместо людей proxy model которая учиться быть reward model.

Что я предлагаю: А зачем нам оценки от людей когда мы можем набрать таски которые легко оценивать по cosine similarity, и мы легко можем сравнить что нам модель наврала, а что нет, давая в качестве
reward = cosine_similarity(ground true answer, predicted answer)

Собственно, банальный вопрос анальный ответ, взял gpt2(110m), написал простой retrival(возвращает по вопросу -ответу ревард) на sentence transformer, взял trl и поcтавил учиться.

А дальше начинается сааамое интересное:
0.37 Question: Sarah didn't like the activity she was doing, but she did it anyway. She felt that it was better than what? Answer: QuestionInvGrooSGroijaWCoSWCGroGroECDGroCVGroDTGroMJGroWCGBTGroDWWCECDGBTECDBMGroJOWCBMFGGroBMWCWCFMLGBTFML

КАЗАЛОСЬ БЫ в чем проблема?
А все довольно просто, видите ли, ppo+gpt довольно умная штука и отлично умеет находить разного рода локальные минимумы и улетает в них легко и весело, ломая reward и emdedings у sentence transofomer.

Я не буду описывать цирк которым занимался по вечерам две последние недели, просто скажу: китайский зло, ироглифы зло, bpe отлично ломает sentence трансформер, в итоге 200 строк кода на эвристики вида (if bad_regex in answer): return 0

А еще очень сильно помог подбор гиперпараметров для KL value и LM weight, cпасибо за уточнение от @nadlskom что каждые 10 эпох open ai прогоняли эпоху классического FineTune(стабилизировало трейн и mean начал быстрее рости)

Баги в целом очень специфичные и на некоторые запросы модель по прежнему ломается и бредит(вероятно через пару недель я выложу код + модель поинтереснее с таким подходом), но уже сейчас модель с PPO тюнингом дает +10 к blue score на задаче QA относительно ванильного трейна.

Благодарности @nadlskom за внимательное чтение статей, @gradientdip за полезные советы, neverix за поиск багов, @dealer_ai за выслушивание моего нытья, @seeallochnaya просто потому что.

Ну и да, очевидно это можно применять к любой задаче которая выглядит как: ну вот input, сделай output похожим на <единственный вариант ответа>




Примеры генераций:

Question: What part of a property may be next to a driveway? Answer: The next part is a house or garage or a garage


Question: Jamie wen to the theater near his home. He was surrounded by servicemen. Where might he be? Answer: in the outdoor.
🔥39👍5❤‍🔥1
#чтивонаночь
Extracting Training Data from Diffusion Models

В чем идея: любая модель выучивает в некоторой мере датасет, хорошая модель выучивает что у людей пять пальцев, два глаза, работают на полях черные и вот это все.

Идея поиска очень простая:
1) генерируем картинки по частотным промптам или out of distribution(случайный запрос чтобы модель сломалась)
2) смотрим какие из из них похожи на то что было в сете

А еще выяснилось что моделе нужно повторить сэмпл пару сотен раз чтобы она начала его воспроизводить с большой точностью и вероятностью, так что все неплохо, живем.

arxiv
👍14
В 99% вузов на диплом можно пропихнуть полный бред, заметная часть преподавателей в высших учебных заведениях занимается эмитацией бурной деятельности, вузовские программы во многом состоят из воды.

ну чувак защитил диплом написанный gpt, но по моему проблема не в этом.
👍50🤮13🤣6🐳2
Жабопёс, жабопёс...
Единственный в мире малыш жабопёс...
❤‍🔥31🔥5
-может сделаем t5 с value head?

-чувак, мы не будем атаковать классификатор сгенерированых текстов чтобы сделать рерайтер нейро дипломов

- и сунем рекламы?
- и сунем рекламы
😈29🔥2
#чтивонаночь
Unnatural Instructions:
Tuning Language Models with (Almost) No Human Labor

Example 1
Instruction: You are given a science question and four
answer options. Your task is to find the correct answer.
Input: Which part of a bicycle BEST moves in a circle? ...
Example 2
Instruction: Given a negative review, convert it to a positive
review by making minimal changes.
Input: we stood there in shock, because we...
Example 3
Instruction: Given two sentences taken from a
conversation, classify whether they are sequential or not.
Input: Noah: When and where are we meeting? :) …
Example 4
Instruction: In this task, you will be given a profile of
someone and your job is to generate a set of interesting
questions that can lead to a conversation with the person.
Input: Yvonne has been playing the violin since she was
four years old. She loves all kinds of music, but her favorite
composer is Bach.

Что из этого честный prompt, а что генерация? спойлер: 4 генерация.

В чем идея: берем промпты для инструкций, учим модель на промптах, генерируем промпты, отбираем лучшие, повторяем, получаем неплохой ауг датасета в 100к раз не вставая с дивана!


папир
20
никто не знает зачем, но держите генератор логотипов.... @testlogogenbot
🔥20👍1