AbstractDL
10.1K subscribers
198 photos
14 videos
239 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
Download Telegram
🔥Palette: одна диффузионная модель и 4 соты (by Google)

Рано или поздно это должно было случиться — гугл представил диффузионную модель, которая умеет почти всё:
- Colorization
- Inpainting
- Uncropping
- JPEG decompression

В каждой задаче их модель значительно обходит все предыдущие решения. Из интересных выводов: self-attention в U-Net очень важен, а L2 лосс лучше чем L1.

P.S. Про диффузионные модели я писал тут.

Статья, блог
Forwarded from XR Help
This media is not supported in your browser
VIEW IN TELEGRAM
Google AI заопенсорсили 2D\3D трекинг рук (одновременный трекинг нескольких рук, предсказание поз и прочее). Пдфка исследования здесь. Код здесь. Протестировать демо здесь.
LiT : Zero-Shot Transfer with Locked-image Text Tuning

Статья от Google Brain о том, как упростить обучение CLIP (о котором я писал тут). Если коротко, то CLIP — это пара энкодеров (image & text), которые обучены выдавать близкие эмбеддинги для картинок и их описаний.

Авторы статьи предлагают вместо end2end обучения обоих энкодеров учить только текстовую модель, а для картинок взять уже обученную и замороженную (ViT, MLP-Mixer или ResNet). Получается, что текстовая модель учится повторять репрезентации сильной картиночной модели.

Этот трюк на порядки уменьшает необходимое количество данных, упрощает обучение и значительно улучшает перформанс на всех down-stream задачах.

P.S. Удивительно, но даже при ~20 млрд обучающих примеров end2end обучение проигрывает.

Статья
Отличная статья от моей знакомой, про такую вещь как Inductive bias. Если вы часто слышите эти слова, но не понимаете их значение, то обязательно прочитайте.

TL;DR: Inductive bias — это априорные знания о природе данных, которые человек
некоторым образом вкладывает в модель машинного обучения.
YOLaT: image recognition для векторных картинок (by Microsoft)

Похоже, это первая нейронка, которая может классифицировать и детектировать объекты в векторной графике без растеризации.

В отличие от пиксельных картинок, векторные состоят из аналитически выраженных геометрических фигур и, поэтому, их эквивалентное разрешение может быть бесконечным. Это делает невозможным использование стандартных методов image recognition.

Что предлагают авторы:
1. Преобразовать векторный файл в набор кривых Безье.
2. Кривые Безье превратить в ненаправленный мультиграф.
3. Запихнуть этот граф в графовую нейросеть.

Их метод демонстрирует state-of-the-art результат, работает в 100 раз быстрее, чем растеризация+CNN и требует в 25 раз меньше параметров.

Статья
Florence: A New Foundation Model for Computer Vision (by Microsoft)

Очередная попытка создать универсальную visual модель, которая умеет почти всё и сразу:
- image classification,
- object detection,
- image/video retrieval,
- video action recognition,
- visual question answering.
И практически везде SOTA.

Рецепт Florence: собрать франкенштейна из CLIP+SWIN+DETR+METER и обучить на 900М пар картинок и текстов из интернета + все публичные датасеты на object detection.

Статья
This media is not supported in your browser
VIEW IN TELEGRAM
📸🎞 Привет, NÜWA! Прощай, DALL•E!

Что может быть круче, чем DALL•E от OpenAI? Только NÜWA — фото/видео nextgen от Microsoft!

DALL•E это мультимодальный трансформер, способный генерировать изображения из текста, как единый поток токенов. Такое возможно, работая не с пикселями (256х256 / 512х512), а сжатыми репрезентациями, подготовленными dVAE, VQ-VAE или VQ-GAN.

Ресерчеры из Microsoft пошли дальше, и сделали NÜWA, способную работать и с фото и с видео, да ещё и решая сразу 8 задач!
- Text2Image (DALL-E)
- Text2Video !
- Скетч в фото
- Скетч в видео
- Завершение фото
- Завершение видео
- Текстовая манипуляция с фото
- Манипуляция с видео

Основным новшеством стал 3D Nearby Attention (3DNA) механизм, который дал возможность работать сразу с 1D (текст), 2D (фото) и 3D (видео) потоком токенов.

📰 paper 💻 git без кода

p.s.: откапал для вас закрытую ссылку (ей уже 3 недели!!) от Microsoft, сейчас там только 30 просмотров!
🎞 Видео про NUWA от Майков

🤖 На лекцию про DALL-E и NUWA от Мишин Лернинг
AbstractDL pinned a photo
Код для телеграм бота

Помните моего нейронного бота?
Я подготовил colab ноутбук для тех, кто тоже хочет сделать что-то похожее, но лень разбираться с telegram API.
This media is not supported in your browser
VIEW IN TELEGRAM
GradInit: перебор гиперпараметров оптимизатора и warmup больше не нужны (by Google)

В гугл предложили супер крутой универсальный architecture-agnostic метод инициализации весов моделей.

Идея очень простая: добавить множители перед каждым блоком параметров и запустить по ним несколько итераций оптимизации лосса. Дальше эти множители фиксируем и учим модель как обычно. Такая инициализация не зависит от глубины и типа архитектуры (работает и на резнетах и на трансформерах) и почти полностью решает проблему взрывающихся\затухающих градиентов.

В итоге отпадает необходимость в переборе гиперпараметров оптимизатора, а трансформер вообще получилось обучить без warmup’a, что считалось практически невозможным. Как бонус, такая инициализация даёт небольшой буст на многих бенчмарках (и картиночных и текстовых).

Статья, GitHub
This media is not supported in your browser
VIEW IN TELEGRAM
🔥MTTR: End-to-End Text Referring Video Object Segmentation

Представлена новая SOTA в сегментации объектов на видео по их текстовому описанию. Качество просто невероятное!

Модель основана на мультимодальном трансформере, в который подаются фичи от текстового энкодера (RoBERTa) и видео энкодера (Video Swin). Примечательно, что в отличие от предыдущих решений, обучение здесь end2end — sequence prediction problem.

P.S. Авторы опубликали и код, и веса моделей 👍

Статья, GitHub
This media is not supported in your browser
VIEW IN TELEGRAM
Dream Fields: Zero-Shot Text-Guided 3D Object Generation (by Google)

Что будет, если скрестить NeRF и CLIP? Получится zero-shot генерация 3d объектов по текстовому описанию!

NeRF — Neural Radiance Fields, способ параметризации 3d сцены с помощью MLP. В этой статье обучают такую штуку генерировать 3х-мерные объекты, минимизируя расстояние между текстовым и картиночными эмбеддингами CLIP с разных ракурсов.

Для того, чтобы это завелось, пришлось добавить аугментацию фона и ограничить размер и прозрачность сцены.

Статья, блог, видео
FuseDream: Новая SOTA в генерации картинок по тексту

Напомню, картинки из текста можно генерировать с помощью связки CLIP+GAN, где латентный вектор генератора оптимизируется так, чтобы получившаяся картинка была похожа на текстовое описание с точки зрения CLIP. В этой статье придумали как ЗНАЧИТЕЛЬНО улучшить такую оптимизацию.

Суть идеи:
1. Аугментировать генерируемую картинку и усреднять получающиеся картиночные эмбеддинги CLIP. Это позволяет избежать эффекта «адверсариал атаки» на модель, что улучшает качество генерации.
2. Оверпараметризация — нужно оптимизировать сразу несколько латентных векторов в виде их линейной комбинации (гениально). Это позволяет легко избегать локальных минимумов.

Статья, GitHub
Завернул код для FuseDream в colab ноутбук (тык), чтобы было удобнее играться.

P.S. картинка сгенерирована для текста «The God of AI»
This media is not supported in your browser
VIEW IN TELEGRAM
К статье про MTTR (сегментация видео по тексту) выложили colab ноутбук!

Colab, HuggingFace
DeepMind вчера выпустили сетку Gopher на 280 миллиардов параметров (что впечатляет). Судя по их же примерам в релизе, Gopher очень хорошо может отвечать на фактологические вопросы ('Who won Womes's US Open in 2021', 'What can you tell me about cell biology'). Если заглянуть в статью с описанием архитектуры модели окажется, что это достигается не за счет числа параметров, а скорее за счет доступа к огромной базе знаний, то есть сетка частично retrieval based. Для сопоставления с базой данных берут замороженный BERT, получают эмбеддинги входного текста и эмбеддинги из базы знаний, находят ближайших соседей (и потом их используют на этапе аттеншена). Для базы данных используют MassiveText (5 триллионов токенов)

Еще для эффективности обучения используют chunked cross-attention, но под модификацию аттеншенов уже пора отдельный жанр на архиве заводить
Wikidata — 10 миллиардов структурированных фактов

Сегодня я решил вам рассказать про такую классную штуку, как Wikidata. Это громадная база знаний, привязанная к Википедии. Тут больше 10 млрд фактов, представленных в виде триплетов.

Триплет — это тройка из объекта, субъекта и их отношения, например:
[Земля / население / 7,8 млрд].

Для всех элементов в викидате есть уникальные указатели, которые вместе образуют мультиграф. И самое классное, что для этого графа были посчитаны эмбеддинги (тык), которые позволяют обучать нейронки ориентироваться в нём.
Короче да, perciver теперь доступен из Huggingface, а значит эпоха мултимодальности не за горами
https://huggingface.co/blog/perceiver
This media is not supported in your browser
VIEW IN TELEGRAM
🔥WebGPT: теперь GPT-3 умеет гуглить лучше тебя

В OpenAI зафайнтюнили GPT-3 отвечать на вопросы, пользуясь поиском Bing, а получившиеся при этом ответы оказались качественнее, чем у людей.

Сначала они разработали простенький текстовый браузер, которым могла бы пользоваться GPT — там есть основные команды типа: кликнуть на ссылку, поскроллить, найти слово на странице, скопировать фрагмент и тд. Далее они при помощи людей собрали датасет из 6000 примеров использования этого браузера и дообучили на нём GPT-3 (language modeling). Затем они нагенерили этой же моделью датасет из 25к вопросов и вручную разметили их качество. На этой разметке они обучили ранжировщик ответов и использовали его для дальнейшей фильтрации.

В итоге, судя по human evaluations на датасете ELI5, людям чаще нравятся ответы нейронки, чем своих собратьев 💁‍♂️

P.S. На гифке пример того, как гуглит эта модель, отвечая на вопрос «How do neural networks work?»

Статья, блог
Forwarded from эйай ньюз
🔥Генерация изображений выходит на новый уровень: GLIDE

GLIDE - это закономерное развитие модели DALL-E от OpenAI. Только теперь вместо GAN-ов, архитектура GLIDE основана на diffussion denoising моделях, о которых у меня уже было несколько постов (тык1, тык2, тык3).

GLIDE умеет генерировать изображения как по текстовому описанию с нуля, так и дополнять существующие. Поразительно, как моделька подстраивается под стиль и освещение во входной картинке, когда нужно дорисовать новый объект.

Архитектура состоит из двух моделей, первая (3.5 млрд параметров) генерит 64×64 картинку по текстовой строке, а вторая (1.5 млрд параметров) берет входной текст и картинку 64×64 и апскейлит её до 256×256. Видимо, так было проще тренировать.

GLIDE, в отличие от DALL-E, не использует CLIP классификатор и не требует ре-ранкинга результатов для увеличения их схожести со входным текстом. И, конечно, GLIDE бьёт DALL-E на всех бенчмарках.

На GPU генерация 256x256 картинки занимает меньше минуты.

Arxiv >> Код на GitHub >> Колаб