я обучала одну модель
4.58K subscribers
457 photos
29 videos
21 files
379 links
Shitposting on various subjects

PS рекламы в канале нет
Download Telegram
В продолжение темы мультимодальности, есть репозиторий Multimodal Toolkit, который позволяет совмещать текстовые, категориальные и числовые данные для задач классификации и регрессии (для обработки текста там используются разные вариации BERT и XLM)

Тут уже можно выбрать кучу вариантов преобразования данных. Самое простое – просто сконкатенировать эбеддинг текста с остальными переменными (на удивление в некоторых задачах это работает хорошо). Или накрутить для табличных данных свои отдельные MLP, и потом конкатенировать вектора. Или суммировать эти вектора с обучаемыми весами на основе gated attention

Опять же, как показывают тесты авторов, учет метаинформации помимо текста помогает в некоторых задачах сильно забустить качество
Forwarded from DL in NLP (Vlad Lialin)
DeepLearning.ai выпустили новый курс в Natural Language Processing Specialization, рассказывающий про трансформеры (да, каким-то обраозм трансформеров там до сих пор не было).

Я проглядел его по диагонали и курс выглядит довольно неплохо. Есть домашки по машинному переводу, суммаризации, QA и чатботам. На последней неделе даже проходят reformer (длинный трансформер работающий через LSH-attention). Если кто-то решит пройти, буду рад если поделитесь своими впечатленями в чате.
Symbolic Knowledge Distillation: from General Language Models to Commonsense Models
https://arxiv.org/abs/2110.07178

Как известно, Трансформеры учатся на очень шумных данных (куче накроуленых текстов из интернета), поэтому часто страдают из-за логических противоречий и отсутствия здравого смысла при генерации. Чтобы обучить логичную и последовательную модель как правило используют графы знаний, составленные людьми. Например датасет ATOMIC содержит в себе наборы фактов и все следующие из них высказывания. i.e. Х доверяет Y -> X доверчивый (атрибут), X хочет иметь дела с Y (желание), до этого X нужно было подружиться с Y (необходимость) и так далее. Проблема в том, что собирать такие данные довольно дорого и долго. Поэтому авторы предлагают дистиллировать большую языковую модель:

• Семплят из ATOMIC высказывания и подают в GPT-3 через промты типа

Event <i>: X goes jogging
Prerequisites: For this to happen, X needed to wear running shoes.

При инференсе промт отбрасывается после 'For this to happen, '. Для каждого типа заданий свой промт, например, для генерации эффекта прописывается 'As a result, '

• Классификтором-критиком из получившегося корпуса дополнительно фильтруются нелогичные или просто кривые высказывания. В итоге их корпус получается в 10 раз больше оригинального, не теряя в качестве. При чем, при ручной валидации качество 'синтетического' датасета оказывается выше, чем у корпуса, составленного людьми

• На получившемся корпусе потом тренируют GPT-2 (она в 100 раз меньше в плане параметров, чем модель-учитель). На основе человеческой валидации, модель-ученик в итоге справляется лучше с генерацией commonsense knowledge
и пример сгенерированных данных
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем кстати NVIDIA релизнули код для GANcraft
This media is not supported in your browser
VIEW IN TELEGRAM
еще один проклятый face swap накануне хеллоуина
я обучала одну модель
еще один проклятый face swap накануне хеллоуина
После публикации этого проклятого видоса админесса неиронично попала в аварию.... Будьте осторожны в этот хеллоуин и пристегивайтесь на задних сидениях
Forwarded from DL in NLP (nlpcontroller_bot)
​​Fast Model Editing at Scale
Mitchell et al., [Stanford]

Представьте себе, что вы ClosedAI, большая суперкорпорация по тренировке языковых моделей. Вы скачиваете весь интернет и тренируете ваш GPT-42, тратя миллиарды долларов на электричество. После чего вы спрашиваете у модели "Who is the prime minister of the UK?" и она отвечает вам "Theresa May". Это грустный, но релеалистичный сценарий.

Менять какие-то факты в классических knowledge graphs легко — меняете ссылку с сущности UK prime minister на другого человека. Но в нейросетках это нетривиальная задача. Если вы просто зафайнтюните модель на одном примере, модель просто переобучится и например всё ещё будет отвечать "Theresa May" на вопрос "Who is the UK PM?". Ещё модель может изменить свои ответы на вопросы, которые вообще с этим не связаны.

Исследователи из Стенфорда предлагают натренировать нейросеть, которая будет модифицировать градиенты файнтюнинга таким образом, чтобы модель действительно апдейтила своё знание — не влияя на несвязанные с этим вопросы, но изменяя ответ для всех связанных. Однако возникает проблема, что если у вас в модели 10B параметров, то даже линейный слой, для их модицикации будет 100B.

Авторы решают это тем, что представляют градиент параметров через downstream gradient слоёв. Если вы помните бэкпроп, то градиент в линейном слое равен X.T @ dL/d(out). Где out — это downstream gradient размера hidden,, что сильно меньше самого градиента размера hidden, hidden. Так как X.T мы знаем, то достаточно модифицировать dL/d(out). По-моему гениальное решение, я год назад занимался похожим проектом и не думаю, что когда-нибудь додумался бы до этого.

Этот трюк позволяет использовать подход даже для очень больших моделей, таких как T5-XXL 10B. При сравнении с альтернативными подходами, этот метод показывает себя лучше и в смысле генерализации на перефразирования вопроса и в смысле сохранения ответов на несвязанные вопросы.
Попробовала сгенерить с ruDALL-E обложки пост-панк альбомов
Первые два ряда крутые, особенно нравятся 2,3 и 2,5

2,1 очень сильно напоминает какой-то существующий альбом, но не могу вспомнить какой
на 2,2 почему-то русский рикардо милос
3,3 это похоже мумий тролль?
Forwarded from Derp Learning
cats2.tar
48.6 MB
Датасет из парных котяток отсюдова.
Обновил, перекачайте.
poorly_drawn_cats.zip
40.3 MB
В дополнение к прошлому датасету – картинки из poorly drawn cats (пары оригинальных пикч и рисунков)
чудеса нейминга архив эдишн

Если серьезно то в статье интересная попытка в мультимодальность – авторы берут текст (как правило речь о твитах), считывают надписи на приложенных к нему картинках через Optical Character Recognition, подают это все вместе в RoBERTa. Потом отдельно кодируют изображение само по себе, получают эмбеддинг, конкатенируют с эмбеддингом текста, потом энкодят все это еще раз вместе, и потом классифицируют (ух)

Ожидаемо, не то чтобы эта модель сильно аутперформит просто классификацию текста, но архитектура интересная. Еще у них очень классно описаны и проиллюстрированы эксперименты, например, визуализация аттеншена на тексте и на картинках (модель фокусируется на увеличенных носах). И подборка мемов в пейпере просто chef's kiss
Media is too big
VIEW IN TELEGRAM
Еще один AI art невероятной красоты из твиттера
Это rgb-clip (или мейби clip guided diffusion) в pytti, но очень интересно, что еще автор к нему прикрутил, чтоб вышло так круто
в комментарии скинули еще красоту:
Forwarded from тоже моушн
Media is too big
VIEW IN TELEGRAM
самая крутая сцена в интерстелларе конечно - когда макконахи, упав в черную дыру, застревает где то на границе измерений в книжном шкафу своей дочки. у нас с путти получилось что то вот такое. кстати я тут шагнул на следующий уровень генерации изображения - до свидания 8бит, здравствуй гладкая сочная картинка с кучей деталей. очень нравится!
Спонсор ночных кошмаров на сегодня – попытка потюнить StyleGAN-NADA на скетчи
В четвер на аукцион Сотби выставят одну из немногих уцелевших копий первой Конституции США. Американское криптосообщество создало вокруг этого аукциона мощный хайп: группа энтузиастов объединилась с целью купить этот экземпляр Конституции.

Для координации сформировали децентрализированную автономную организацию ConstitutionDAO (DAO — онлайн-сообщество с определенной целью и правилами, прописанными в блокчейне).

За три дня уже собрали $3 млн в эфире. По оценке Сотби, лот может уйти за $20 млн.

Если криптогики выкупят лот, судьбу Конституции решат демократическим голосованием среди членов DAO. Среди предложений — выпустить NFT (куда же без этого), а саму копию отдать в национальный музей или институт.

Но судьба листа бумаги здесь не так важна, как красивая история. Если у ConstitutionDAO все получится, это станет крутой рекламой криптосообщества, DAO и технологий web3.

Символизм здесь на всех уровнях. Свобода является главной ценностью и для Америки, и для криптосообщества; криптогики хотят передать Конституцию из частных рук в собственность "народа", а сам процесс покупки станет масштабной иллюстрацией возможностей современной онлайн-демократии.

https://www.notboring.co/p/lets-buy-the-us-constitution
Forwarded from DL in NLP (nlpcontroller_bot)
⚡️OpenAI’s API Now Available with No Waitlist

Наконец-то OpenAI открыли публичный доступ к GPT-3. За время закрытого теста к нему добавили небольшие улучшения, такие как Instruct series models, которые лучше реагируют на промты. Кроме этого добавили в документацию safety best practices, которые рассказывают как сделать такую систему, которую нельзя будет атаковать очевидными способами.

Цена пока что кажется неплохой, по крайней мере ниже чем я ожидал. Самая большая модель стоит 6 центов за тысячу токенов. После регистрации вам дают $18, чего хватит для генерации 300 тысяч токенов.

Заходите на openai.com/api, регистрируйтесь и играйтесь с GPT-3 или Codex. Пишите что получается в чат, будет интересно узнать какие у людей в среднем впечатления.