AbstractDL – Telegram

AbstractDL

11.5K subscribers

244 photos

16 videos

282 links

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev

Download Telegram

About

Blog

Apps

Platform

11.5K subscribers

An Image is Worth One Word: превращение картинок в псевдо-слова для использования в text2image

Некоторые концепты сложно выразить существующими словами, их проще показать на примерах. Поэтому в Nvidia предложили использовать гениальный и простой трюк — превращать картинки в «псевдо-слова», а точнее, находить эмбеддинг несуществующего токена (p-tuning), который будет соответствовать требуемому визуальному концепту. Дальше это «псевдо-слово» можно вставлять в текст и генерировать сложные композиции (см. картинку).

Такой техникой можно сгенерировать изображение по тексту:
«A и B держат в руках С в стиле D»,
где A,B,C,D — это псевдотокены с заранее вычисленными по примерам картинок эмбеддингами.

Самое крутое здесь то, что не нужно ничего обучать, можно взять готовую text2image модель (Latent Diffusion) и итеративно вычислить эмбеддинги псевдотокенов для нужных картинок.

Статья, блог, GitHub

P.S. Новость подглядел тут.

👍54

11.6K viewsedited 18:28

BlenderBot 3: лучший в мире чатбот (by Meta)

Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).

Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.

Статья, GitHub, блог, бот

👍34

12K views17:53

Forwarded from эйай ньюз

Multimodal Learning with Transformers: A Survey

Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.

Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.

В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.

❱❱ PDF

@ai_newz

👍18

4.52K views12:33

🔥BEiT-3: Image as a Foreign Language (by Microsoft)

Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)

Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).

Примечательно, что для обучения использовались только открытые данные.

Статья, GitHub

👍41

6.9K views13:52

Мудрость древнего Китая и щепотка нейронной магии — встречайте Нейро Конфуция!

Вы уже не ждали, а я доделал замену старому чатботу. Теперь снова есть с кем поболтать 💁‍♂️

@neural_chat_bot

👍75👎3

28.3K views20:19

Forwarded from Соне нравится (или нет)

This media is not supported in your browser

VIEW IN TELEGRAM

Диффузионные модели начинают занимать лидирующую позицию и в задаче Motion Generation.

MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model

Авторы данного подхода решили использовать свойство широкой вариативности и высокого качества генерации у диффузионных моделей для анимации движения человека с помощью текстовой подсказки и получили новую SOTA в данной задаче. Предыдущие решения не справлялись со сложным текстом или со стилизацией сгенерированных движений. Также авторы указали в своём пейпере, что их решение позволяет использовать очень точные текстовые описания, которые являлись сложными для предыдущих решений, потому что MotionDiffuse делит генерируемый скелет на верхнюю и нижнюю части. Поэтому можно получить качественных результат, к примеру, с помощью текста «a person is drinking water while walking» или «a person is walking and then running».

Но перейдём к более техническим деталям, которые заставляют это решение работать.
Скажу сразу, что многие идеи в пейпере переиспользуются из GLIDE, поэтому если вы не читали ещё пейпер про эту модель, то советую ознакомиться.

В MotionDiffuse вместо U-Net-подобной архитектуры был разработан Cross-Modality Linear Transformer, с помощью которого происходит генерация движений с произвольной длительностью, которая зависит от продолжительности генерируемого движения. Cross-Modality Linear Transformer подразумевает под собой обычный трансформер с энкодером и декодером, каждый блок такого трансфомера содержит: multi-head attention module (с residual connections) и feed-forward network (с тремя линейными преобразованиями и двумя GELU-слоями между ними). Для улучшения к обобщительной способности используются веса из CLIP для инициализации первых слоёв, которые зафризили и не обновляли в обучении.

Также были использованы Linear Self-attention для учёта связности анимации между кадрами и Linear Cross-attention для учёта текста в последовательности движения.

@sonya_aesthetics

👍18

4.47K views07:53

Diffusion Models: A Comprehensive Survey

Отличная обзорная статья с таксономией диффузионных моделей и всех видов сэмплирования. Тут даже есть сравнение диффузии с остальными генеративными подходами (см. картинку).

Статья

👍39👎1

9.62K views08:33

Charl-E: Text2image on your Mac

Stable Diffusion завернули в удобное оффлайн приложение для Mac с M1/M2. Теперь можно генерить картинки у себя на ноутбуке.

App, website

👍31

20.6K viewsedited 08:09

Forwarded from Kali Novskaya (Tatiana Shavrina)

No language left behind
#nlp #про_nlp

Достаточно тихо прошел важный релиз: Allen AI выложили датасет, воспроизведенный по одному из самых больших проектов по переводу: No language left behind

Суммарно 450Gb параллельных примеров доступно под открытой лицензией для 200 языков!

Статья: https://arxiv.org/pdf/2207.04672.pdf

Релиз данных от Allen AI: https://huggingface.co/datasets/allenai/nllb

👍32

4.89K views11:11

Forwarded from AI для Всех

Dall-E стал доступным для всех

OpenAI только что отменили waitlist на доступ к Dall-E 2. Просто регаетесь и пользуетесь бесплатными кредитами

DALL·E now available without waitlist

New users can start creating straight away. Lessons learned from deployment and improvements to our safety systems make wider availability possible.

👍31👎2

4.31K views17:28

Нашёл максимально компактный обзор всех RL-подходов (тык)

👍47

5.23K views14:23

This media is not supported in your browser

VIEW IN TELEGRAM

FusionDream: Text-to-3D (by Google)

Помните Dream Fields? Это была первая попытка zero-shot генерации 3D объектов по тексту. Недавно те же самые рисёрчеры сильно апгрейднули эту штуку с помощью Imagen. Качество невероятное!

Как и раньше, здесь тренируют NeRF, но вместо обучения по эмббеддингам CLIP используют text2image диффузию в качестве источника информации для лосса.

Статья, блог, GitHub

P.S. увидел тут

👍19

3.79K viewsedited 19:02

This media is not supported in your browser

VIEW IN TELEGRAM

SayCan: как заставить языковую модель принести тебе колу (by Google)

Идея довольно простая: нужно взять робота, который уже умеет выполнять примитивные команды (найти, поднять, положить и тд), а в качестве мозгов для планирования взять языковую модель (PaLM) со специальным step-by-step промптом:

«How would you {TASK}? I would 1. ..., 2, …»

Дальше допустимые команды для робота ранжируются по перплексии и классификатором успеха (обученным с помощью RL). Таким образом, получилось заставить робота решать довольно сложные и многоступенчатые задачи.

Статья, блог, GitHub

👍44

8.05K views20:16

🔥Grokking наконец обнаружили на нормальных датасетах! (by MIT)

И для этого даже не пришлось тратить миллиарды GPU-часов и покупать атомную электростанцию.

Чтобы воспроизвести эффект генерализации после оверфиттинга, нужно было всего лишь увеличить норму весов модели при инициализации!

Авторы описывают grokking через простую идею нормированного ландшафта лоссов. Предложенная теория отлично описывает не только этот эффект, но и double descent, и связь weight decay со временем обучения.

Статья

P.S. про grokking я рассказывал тут.

👍80

10.4K views18:50

This media is not supported in your browser

VIEW IN TELEGRAM

Imagen Video

У гугла получилось адаптировать Imagen для генерации видео!

Авторам пришлось немного переделать UNet и подмешать 14М пар text-video к датасету LAION, причём картинки воспринимаются моделью тоже как видео, но длиной в 1 кадр. В качестве энкодера используется замороженный T5-XXL.

В отличие от предыдущих работ, здесь даже получилось сгенерировать анимированный текст.

Статья, блог

👍37👎1

8.23K views20:42

Chain-of-Thought: дайте GPT поразмышлять перед ответом! (by Google)

Большинство промптов для zero-shot нацелены на немедленное получение ответа, но оказалось, если дать языковой модели «поразмышлять вслух» над задачей, то вероятность правильного решения значительно повышается.

Теперь это кажется чертовски логичным! Ведь требовать ответ сразу без возможности подумать это слишком жестоко даже для людей 😅

Добавление простого «Lets think step-by-step» промпта позволило языковой модели PaLM обойти человека на 10 из 23 задач Big-Bench! Думаю, что chain-of-thought подход теперь должен стать общепринятым.

А ещё Google выпустил мультиязычную модель Flan-T5-xxl, которая дополнительно затюнена под этот промпт + лосс из UL2.

P.S. На скриншоте результат генерации для GPT-j.

Статья

👍52

5.56K viewsedited 19:08

FusionBrain Challenge 2.0

Мои друзья из AIRI запустили соревнование по созданию универсальной multi-task модели, которая должна решать любую задачу в image&text доменах. Причём переключение задач должно осуществляться текстом (как в OFA).

Есть очень сильный бейзлайн на основе RUDOLPH-2.7B, который можно немного(?) дотюнить и выиграть 1М ₽.

Дедлайн 13 ноября.

Сайт, GitHub, модель

👍19

3.88K views11:23

Существуют ли задачи, которые большие языковые модели решают хуже чем маленькие?

По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей:
1. Вопросы с отрицанием.
2. Вопросы с ложной подсказкой.
3. Повторение искажённых цитат.
4. Вопросы со странной математикой.

Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.

Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.

Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁‍♂️

Статья

👍33

4.42K viewsedited 11:45

🔥Embedding Diffusion for Text Generation (by DeepMind)

Наконец у кого-то получилось применить диффузию для генерации текста.

В качестве базовой модели используется оригинальный трансформер, который учится денойзить эмбеддинги токенов (которые взяли из BERT). Дальше эти эмбеддинги отображаются в логиты и таким образом генерируется текст — сразу весь, целиком.

А ещё тут смогли адаптировать метод classifier-free guidance для заполнения больших пропусков внутри текста.

P.S. на картинке процесс текстовой диффузии.

Статья

👍43

5.56K viewsedited 08:33

🔥Draw things: диффузия на iPhone!

Stable Diffusion теперь можно скачать из AppStore! Работает полностью оффлайн и очень быстро.

Сайт, AppStore

👍30

9.94K viewsedited 06:12