я обучала одну модель – Telegram

я обучала одну модель

@def_model_train

4.58K subscribers

457 photos

29 videos

21 files

379 links

Shitposting on various subjects

PS рекламы в канале нет

Download Telegram

About

Blog

Apps

Platform

я обучала одну модель

4.58K subscribers

я обучала одну модель

В продолжение темы мультимодальности, есть репозиторий Multimodal Toolkit, который позволяет совмещать текстовые, категориальные и числовые данные для задач классификации и регрессии (для обработки текста там используются разные вариации BERT и XLM)

Тут уже можно выбрать кучу вариантов преобразования данных. Самое простое – просто сконкатенировать эбеддинг текста с остальными переменными (на удивление в некоторых задачах это работает хорошо). Или накрутить для табличных данных свои отдельные MLP, и потом конкатенировать вектора. Или суммировать эти вектора с обучаемыми весами на основе gated attention

Опять же, как показывают тесты авторов, учет метаинформации помимо текста помогает в некоторых задачах сильно забустить качество

1.77K views09:45

я обучала одну модель

Forwarded from DL in NLP (Vlad Lialin)

DeepLearning.ai выпустили новый курс в Natural Language Processing Specialization, рассказывающий про трансформеры (да, каким-то обраозм трансформеров там до сих пор не было).

Я проглядел его по диагонали и курс выглядит довольно неплохо. Есть домашки по машинному переводу, суммаризации, QA и чатботам. На последней неделе даже проходят reformer (длинный трансформер работающий через LSH-attention). Если кто-то решит пройти, буду рад если поделитесь своими впечатленями в чате.

Natural Language Processing with Attention Models

Offered by DeepLearning.AI. In Course 4 of the Natural ... Enroll for free.

1.73K views16:51

я обучала одну модель

Symbolic Knowledge Distillation: from General Language Models to Commonsense Models
https://arxiv.org/abs/2110.07178

Как известно, Трансформеры учатся на очень шумных данных (куче накроуленых текстов из интернета), поэтому часто страдают из-за логических противоречий и отсутствия здравого смысла при генерации. Чтобы обучить логичную и последовательную модель как правило используют графы знаний, составленные людьми. Например датасет ATOMIC содержит в себе наборы фактов и все следующие из них высказывания. i.e. Х доверяет Y -> X доверчивый (атрибут), X хочет иметь дела с Y (желание), до этого X нужно было подружиться с Y (необходимость) и так далее. Проблема в том, что собирать такие данные довольно дорого и долго. Поэтому авторы предлагают дистиллировать большую языковую модель:

• Семплят из ATOMIC высказывания и подают в GPT-3 через промты типа

Event <i>: X goes jogging
Prerequisites: For this to happen, X needed to wear running shoes.

При инференсе промт отбрасывается после 'For this to happen, '. Для каждого типа заданий свой промт, например, для генерации эффекта прописывается 'As a result, '

• Классификтором-критиком из получившегося корпуса дополнительно фильтруются нелогичные или просто кривые высказывания. В итоге их корпус получается в 10 раз больше оригинального, не теряя в качестве. При чем, при ручной валидации качество 'синтетического' датасета оказывается выше, чем у корпуса, составленного людьми

• На получившемся корпусе потом тренируют GPT-2 (она в 100 раз меньше в плане параметров, чем модель-учитель). На основе человеческой валидации, модель-ученик в итоге справляется лучше с генерацией commonsense knowledge

2.28K views19:26

я обучала одну модель

и пример сгенерированных данных

2.32K views19:26

я обучала одну модель

This media is not supported in your browser

VIEW IN TELEGRAM

Тем временем кстати NVIDIA релизнули код для GANcraft

15.8K views20:11

я обучала одну модель

This media is not supported in your browser

VIEW IN TELEGRAM

еще один проклятый face swap накануне хеллоуина

16.8K views18:45

я обучала одну модель

я обучала одну модель

еще один проклятый face swap накануне хеллоуина

После публикации этого проклятого видоса админесса неиронично попала в аварию.... Будьте осторожны в этот хеллоуин и пристегивайтесь на задних сидениях

1.81K views17:50

я обучала одну модель

Forwarded from DL in NLP (nlpcontroller_bot)

Fast Model Editing at Scale
Mitchell et al., [Stanford]

Представьте себе, что вы ClosedAI, большая суперкорпорация по тренировке языковых моделей. Вы скачиваете весь интернет и тренируете ваш GPT-42, тратя миллиарды долларов на электричество. После чего вы спрашиваете у модели "Who is the prime minister of the UK?" и она отвечает вам "Theresa May". Это грустный, но релеалистичный сценарий.

Менять какие-то факты в классических knowledge graphs легко — меняете ссылку с сущности UK prime minister на другого человека. Но в нейросетках это нетривиальная задача. Если вы просто зафайнтюните модель на одном примере, модель просто переобучится и например всё ещё будет отвечать "Theresa May" на вопрос "Who is the UK PM?". Ещё модель может изменить свои ответы на вопросы, которые вообще с этим не связаны.

Исследователи из Стенфорда предлагают натренировать нейросеть, которая будет модифицировать градиенты файнтюнинга таким образом, чтобы модель действительно апдейтила своё знание — не влияя на несвязанные с этим вопросы, но изменяя ответ для всех связанных. Однако возникает проблема, что если у вас в модели 10B параметров, то даже линейный слой, для их модицикации будет 100B.

Авторы решают это тем, что представляют градиент параметров через downstream gradient слоёв. Если вы помните бэкпроп, то градиент в линейном слое равен X.T @ dL/d(out). Где out — это downstream gradient размера hidden,, что сильно меньше самого градиента размера hidden, hidden. Так как X.T мы знаем, то достаточно модифицировать dL/d(out). По-моему гениальное решение, я год назад занимался похожим проектом и не думаю, что когда-нибудь додумался бы до этого.

Этот трюк позволяет использовать подход даже для очень больших моделей, таких как T5-XXL 10B. При сравнении с альтернативными подходами, этот метод показывает себя лучше и в смысле генерализации на перефразирования вопроса и в смысле сохранения ответов на несвязанные вопросы.

1.68K views16:39

я обучала одну модель

Попробовала сгенерить с ruDALL-E обложки пост-панк альбомов
Первые два ряда крутые, особенно нравятся 2,3 и 2,5

2,1 очень сильно напоминает какой-то существующий альбом, но не могу вспомнить какой
на 2,2 почему-то русский рикардо милос
3,3 это похоже мумий тролль?

19.9K views09:11

я обучала одну модель

Forwarded from Derp Learning

Датасет из парных котяток отсюдова.
Обновил, перекачайте.

1.61K views23:06

я обучала одну модель

poorly_drawn_cats.zip

В дополнение к прошлому датасету – картинки из poorly drawn cats (пары оригинальных пикч и рисунков)

1.85K views23:09

я обучала одну модель

я обучала одну модель

poorly_drawn_cats.zip

например такие

1.82K views23:09

я обучала одну модель

чудеса нейминга архив эдишн

Если серьезно то в статье интересная попытка в мультимодальность – авторы берут текст (как правило речь о твитах), считывают надписи на приложенных к нему картинках через Optical Character Recognition, подают это все вместе в RoBERTa. Потом отдельно кодируют изображение само по себе, получают эмбеддинг, конкатенируют с эмбеддингом текста, потом энкодят все это еще раз вместе, и потом классифицируют (ух)

Ожидаемо, не то чтобы эта модель сильно аутперформит просто классификацию текста, но архитектура интересная. Еще у них очень классно описаны и проиллюстрированы эксперименты, например, визуализация аттеншена на тексте и на картинках (модель фокусируется на увеличенных носах). И подборка мемов в пейпере просто chef's kiss ✨

1.64K views09:35

я обучала одну модель

Media is too big

VIEW IN TELEGRAM

Еще один AI art невероятной красоты из твиттера
Это rgb-clip (или мейби clip guided diffusion) в pytti, но очень интересно, что еще автор к нему прикрутил, чтоб вышло так круто

1.85K viewsedited 19:43

я обучала одну модель

в комментарии скинули еще красоту:

1.61K views20:07

я обучала одну модель

Forwarded from тоже моушн

Media is too big

VIEW IN TELEGRAM

самая крутая сцена в интерстелларе конечно - когда макконахи, упав в черную дыру, застревает где то на границе измерений в книжном шкафу своей дочки. у нас с путти получилось что то вот такое. кстати я тут шагнул на следующий уровень генерации изображения - до свидания 8бит, здравствуй гладкая сочная картинка с кучей деталей. очень нравится!

1.55K views20:07

я обучала одну модель

Forwarded from into the void because i'm annoyed

1.41K views14:29

я обучала одну модель

Спонсор ночных кошмаров на сегодня – попытка потюнить StyleGAN-NADA на скетчи

1.41K views18:14

я обучала одну модель

Forwarded from Brodetskyi. Tech, VC, Startups

В четвер на аукцион Сотби выставят одну из немногих уцелевших копий первой Конституции США. Американское криптосообщество создало вокруг этого аукциона мощный хайп: группа энтузиастов объединилась с целью купить этот экземпляр Конституции.

Для координации сформировали децентрализированную автономную организацию ConstitutionDAO (DAO — онлайн-сообщество с определенной целью и правилами, прописанными в блокчейне).

За три дня уже собрали $3 млн в эфире. По оценке Сотби, лот может уйти за $20 млн.

Если криптогики выкупят лот, судьбу Конституции решат демократическим голосованием среди членов DAO. Среди предложений — выпустить NFT (куда же без этого), а саму копию отдать в национальный музей или институт.

Но судьба листа бумаги здесь не так важна, как красивая история. Если у ConstitutionDAO все получится, это станет крутой рекламой криптосообщества, DAO и технологий web3.

Символизм здесь на всех уровнях. Свобода является главной ценностью и для Америки, и для криптосообщества; криптогики хотят передать Конституцию из частных рук в собственность "народа", а сам процесс покупки станет масштабной иллюстрацией возможностей современной онлайн-демократии.

https://www.notboring.co/p/lets-buy-the-us-constitution

www.notboring.co

Let's Buy the US Constitution

ConstitutionDAO, web3, and America

1.31K views18:01

я обучала одну модель

Forwarded from DL in NLP (nlpcontroller_bot)

⚡️OpenAI’s API Now Available with No Waitlist

Наконец-то OpenAI открыли публичный доступ к GPT-3. За время закрытого теста к нему добавили небольшие улучшения, такие как Instruct series models, которые лучше реагируют на промты. Кроме этого добавили в документацию safety best practices, которые рассказывают как сделать такую систему, которую нельзя будет атаковать очевидными способами.

Цена пока что кажется неплохой, по крайней мере ниже чем я ожидал. Самая большая модель стоит 6 центов за тысячу токенов. После регистрации вам дают $18, чего хватит для генерации 300 тысяч токенов.

Заходите на openai.com/api, регистрируйтесь и играйтесь с GPT-3 или Codex. Пишите что получается в чат, будет интересно узнать какие у людей в среднем впечатления.

Our API platform offers our latest models and guides for safety best practices.

1.32K views18:28