AbstractDL – Telegram

AbstractDL

11.5K subscribers

244 photos

16 videos

282 links

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev

Download Telegram

About

Blog

Apps

Platform

11.5K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

🔥В OpenAI научили нейронку играть в майнкрафт по видео из интернета

Их модель демонстрирует human-level перформанс и даже сама научилась создавать алмазную кирку! А для её создания нужно как минимум 24 тысячи игровых действий 🤯

Step-by-step:
1. Нанять несколько человек и разметить 100 часов игры (нажатия клавиш и движение мышки). Это обошлось всего в 2к$.
2. Обучить на этих данных модель для разметки новых видео.
3. Разметить в тысячу раз больше данных с помощью этой модели.
4. Обучить GPT-like архитектуру, которая по кадрам предсказывает дальнейшие действия игрока (behavioural cloning).
5. Зафайнтюнить эту модель при помощи RL (ppg), где reward даётся за крафтинг новых предметов.

Для борьбы с catastrophic forgetting они добавили KL лосс между старыми весами и новыми — это в несколько раз улучшило результат.

P.S. Вопреки традициям, OpenAI выложили и код и веса моделей! Датасеты тоже обещают скоро опубликовать.

Статья, блог, GitHub

👍44

5.52K views11:11

Typical sampling: идеальный метод генерации текста

Языковые модели (например GPT) предсказывают распределение вероятностей следующего токена, но способов генерации текста из этих распределений очень много и у всех свои недостатки — зацикленность, скучность и даже «галлюцинации».

Оказалось, что главная проблема всех прежних подходов в том, что они ориентировались на перплексию текста и вероятность токенов, а нужно было на условную энтропию — это следует из информационной теории речи. Новый подход позволяет генерировать гораздо более связный, интересный и «человеческий» текст.

Но самое крутое — этот метод уже интегрирован в transformers! Нужно всего лишь добавить параметр генерации typical_p. Чем ниже этот параметр, тем более knowledgeable будет текст, а чем выше, тем более интересным и непредсказуемым.

Подробнее можно почитать тут.

Статья, GitHub

👍45👎3

5.53K viewsedited 17:01

This media is not supported in your browser

VIEW IN TELEGRAM

Вау! Посмотрите как умеет DALL·E 2! А это всего лишь повторяющийся инпейнтинг типа «zoom-out». То есть сначала по тексту генерируется картинка, а потом несколько раз достраивается её продолжение.

Автор: @too_motion

👍88

7.37K views16:30

Forwarded from AI для Всех

Мета выпустила переводчик на 200 языков.

Зацените новый прорыв Меты в области машинного перевода, о котором только что объявил Марк Цукерберг. Они создали и выложили в открытый доступ модель, с громким названием No language left behind (Ни один язык не останется за бортом), которая переводит с 200 различных языков.

Методы из этой работы были применены для улучшения переводов на Facebook, Instagram и даже Wikipedia.

📖 Статья
🗽 Код

👍28

4.07K views15:18

Language Modeling with Pixels

А что будет, если учить нейронную сеть понимать текст по скриншотам? Оказалось, что такая модель будет работать ничуть не хуже, чем BERT, и, к тому же, ещё и понимать мультсимвольный шифр:
ᗪ🝗🝗尸㇄🝗闩尺𝓝讠𝓝Ꮆ.

Авторы предложили вместо дискретных токенов предсказывать пиксели буквенных символов. Подход очень похож на смесь BERT и ViT-MAE — сначала обучающие тексты рендерятся в изображение, а затем маскируются и восстанавливаются разные его куски. Этот подход позволил избавиться от так называемого vocabulary bottleneck — то есть нет необходимости хранить огромное количество эмбеддингов для десятков тысяч токенов и вычислять дорогостоящий софтмакс.

В итоге, модель демонстрирует сравнимый с бертом перформанс и гораздо более устойчива к adversarial атакам.

P.S. На картинке показана работа промежуточного чекпоинта модели, когда она научилась декодить замаскированный текст, но ещё не до конца.

Статья, GitHub, Hugging Face

👍45

7.62K viewsedited 12:45

An Image is Worth One Word: превращение картинок в псевдо-слова для использования в text2image

Некоторые концепты сложно выразить существующими словами, их проще показать на примерах. Поэтому в Nvidia предложили использовать гениальный и простой трюк — превращать картинки в «псевдо-слова», а точнее, находить эмбеддинг несуществующего токена (p-tuning), который будет соответствовать требуемому визуальному концепту. Дальше это «псевдо-слово» можно вставлять в текст и генерировать сложные композиции (см. картинку).

Такой техникой можно сгенерировать изображение по тексту:
«A и B держат в руках С в стиле D»,
где A,B,C,D — это псевдотокены с заранее вычисленными по примерам картинок эмбеддингами.

Самое крутое здесь то, что не нужно ничего обучать, можно взять готовую text2image модель (Latent Diffusion) и итеративно вычислить эмбеддинги псевдотокенов для нужных картинок.

Статья, блог, GitHub

P.S. Новость подглядел тут.

👍54

11.6K viewsedited 18:28

BlenderBot 3: лучший в мире чатбот (by Meta)

Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).

Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.

Статья, GitHub, блог, бот

👍34

12K views17:53

Forwarded from эйай ньюз

Multimodal Learning with Transformers: A Survey

Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.

Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.

В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.

❱❱ PDF

@ai_newz

👍18

4.52K views12:33

🔥BEiT-3: Image as a Foreign Language (by Microsoft)

Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)

Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).

Примечательно, что для обучения использовались только открытые данные.

Статья, GitHub

👍41

6.9K views13:52

Мудрость древнего Китая и щепотка нейронной магии — встречайте Нейро Конфуция!

Вы уже не ждали, а я доделал замену старому чатботу. Теперь снова есть с кем поболтать 💁‍♂️

@neural_chat_bot

👍75👎3

28.3K views20:19

Forwarded from Соне нравится (или нет)

This media is not supported in your browser

VIEW IN TELEGRAM

Диффузионные модели начинают занимать лидирующую позицию и в задаче Motion Generation.

MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model

Авторы данного подхода решили использовать свойство широкой вариативности и высокого качества генерации у диффузионных моделей для анимации движения человека с помощью текстовой подсказки и получили новую SOTA в данной задаче. Предыдущие решения не справлялись со сложным текстом или со стилизацией сгенерированных движений. Также авторы указали в своём пейпере, что их решение позволяет использовать очень точные текстовые описания, которые являлись сложными для предыдущих решений, потому что MotionDiffuse делит генерируемый скелет на верхнюю и нижнюю части. Поэтому можно получить качественных результат, к примеру, с помощью текста «a person is drinking water while walking» или «a person is walking and then running».

Но перейдём к более техническим деталям, которые заставляют это решение работать.
Скажу сразу, что многие идеи в пейпере переиспользуются из GLIDE, поэтому если вы не читали ещё пейпер про эту модель, то советую ознакомиться.

В MotionDiffuse вместо U-Net-подобной архитектуры был разработан Cross-Modality Linear Transformer, с помощью которого происходит генерация движений с произвольной длительностью, которая зависит от продолжительности генерируемого движения. Cross-Modality Linear Transformer подразумевает под собой обычный трансформер с энкодером и декодером, каждый блок такого трансфомера содержит: multi-head attention module (с residual connections) и feed-forward network (с тремя линейными преобразованиями и двумя GELU-слоями между ними). Для улучшения к обобщительной способности используются веса из CLIP для инициализации первых слоёв, которые зафризили и не обновляли в обучении.

Также были использованы Linear Self-attention для учёта связности анимации между кадрами и Linear Cross-attention для учёта текста в последовательности движения.

@sonya_aesthetics

👍18

4.47K views07:53

Diffusion Models: A Comprehensive Survey

Отличная обзорная статья с таксономией диффузионных моделей и всех видов сэмплирования. Тут даже есть сравнение диффузии с остальными генеративными подходами (см. картинку).

Статья

👍39👎1

9.62K views08:33

Charl-E: Text2image on your Mac

Stable Diffusion завернули в удобное оффлайн приложение для Mac с M1/M2. Теперь можно генерить картинки у себя на ноутбуке.

App, website

👍31

20.6K viewsedited 08:09

Forwarded from Kali Novskaya (Tatiana Shavrina)

No language left behind
#nlp #про_nlp

Достаточно тихо прошел важный релиз: Allen AI выложили датасет, воспроизведенный по одному из самых больших проектов по переводу: No language left behind

Суммарно 450Gb параллельных примеров доступно под открытой лицензией для 200 языков!

Статья: https://arxiv.org/pdf/2207.04672.pdf

Релиз данных от Allen AI: https://huggingface.co/datasets/allenai/nllb

👍32

4.89K views11:11

Forwarded from AI для Всех

Dall-E стал доступным для всех

OpenAI только что отменили waitlist на доступ к Dall-E 2. Просто регаетесь и пользуетесь бесплатными кредитами

DALL·E now available without waitlist

New users can start creating straight away. Lessons learned from deployment and improvements to our safety systems make wider availability possible.

👍31👎2

4.31K views17:28

Нашёл максимально компактный обзор всех RL-подходов (тык)

👍47

5.23K views14:23

This media is not supported in your browser

VIEW IN TELEGRAM

FusionDream: Text-to-3D (by Google)

Помните Dream Fields? Это была первая попытка zero-shot генерации 3D объектов по тексту. Недавно те же самые рисёрчеры сильно апгрейднули эту штуку с помощью Imagen. Качество невероятное!

Как и раньше, здесь тренируют NeRF, но вместо обучения по эмббеддингам CLIP используют text2image диффузию в качестве источника информации для лосса.

Статья, блог, GitHub

P.S. увидел тут

👍19

3.79K viewsedited 19:02

This media is not supported in your browser

VIEW IN TELEGRAM

SayCan: как заставить языковую модель принести тебе колу (by Google)

Идея довольно простая: нужно взять робота, который уже умеет выполнять примитивные команды (найти, поднять, положить и тд), а в качестве мозгов для планирования взять языковую модель (PaLM) со специальным step-by-step промптом:

«How would you {TASK}? I would 1. ..., 2, …»

Дальше допустимые команды для робота ранжируются по перплексии и классификатором успеха (обученным с помощью RL). Таким образом, получилось заставить робота решать довольно сложные и многоступенчатые задачи.

Статья, блог, GitHub

👍44

8.05K views20:16

🔥Grokking наконец обнаружили на нормальных датасетах! (by MIT)

И для этого даже не пришлось тратить миллиарды GPU-часов и покупать атомную электростанцию.

Чтобы воспроизвести эффект генерализации после оверфиттинга, нужно было всего лишь увеличить норму весов модели при инициализации!

Авторы описывают grokking через простую идею нормированного ландшафта лоссов. Предложенная теория отлично описывает не только этот эффект, но и double descent, и связь weight decay со временем обучения.

Статья

P.S. про grokking я рассказывал тут.

👍80

10.4K views18:50

This media is not supported in your browser

VIEW IN TELEGRAM

Imagen Video

У гугла получилось адаптировать Imagen для генерации видео!

Авторам пришлось немного переделать UNet и подмешать 14М пар text-video к датасету LAION, причём картинки воспринимаются моделью тоже как видео, но длиной в 1 кадр. В качестве энкодера используется замороженный T5-XXL.

В отличие от предыдущих работ, здесь даже получилось сгенерировать анимированный текст.

Статья, блог

👍37👎1

8.23K views20:42