An Image is Worth One Word: превращение картинок в псевдо-слова для использования в text2image
Некоторые концепты сложно выразить существующими словами, их проще показать на примерах. Поэтому в Nvidia предложили использовать гениальный и простой трюк — превращать картинки в «псевдо-слова», а точнее, находить эмбеддинг несуществующего токена (p-tuning), который будет соответствовать требуемому визуальному концепту. Дальше это «псевдо-слово» можно вставлять в текст и генерировать сложные композиции (см. картинку).
Такой техникой можно сгенерировать изображение по тексту:
«A и B держат в руках С в стиле D»,
где A,B,C,D — это псевдотокены с заранее вычисленными по примерам картинок эмбеддингами.
Самое крутое здесь то, что не нужно ничего обучать, можно взять готовую text2image модель (Latent Diffusion) и итеративно вычислить эмбеддинги псевдотокенов для нужных картинок.
Статья, блог, GitHub
P.S. Новость подглядел тут.
Некоторые концепты сложно выразить существующими словами, их проще показать на примерах. Поэтому в Nvidia предложили использовать гениальный и простой трюк — превращать картинки в «псевдо-слова», а точнее, находить эмбеддинг несуществующего токена (p-tuning), который будет соответствовать требуемому визуальному концепту. Дальше это «псевдо-слово» можно вставлять в текст и генерировать сложные композиции (см. картинку).
Такой техникой можно сгенерировать изображение по тексту:
«A и B держат в руках С в стиле D»,
где A,B,C,D — это псевдотокены с заранее вычисленными по примерам картинок эмбеддингами.
Самое крутое здесь то, что не нужно ничего обучать, можно взять готовую text2image модель (Latent Diffusion) и итеративно вычислить эмбеддинги псевдотокенов для нужных картинок.
Статья, блог, GitHub
P.S. Новость подглядел тут.
👍54
BlenderBot 3: лучший в мире чатбот (by Meta)
Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).
Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.
Статья, GitHub, блог, бот
Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).
Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.
Статья, GitHub, блог, бот
👍34
Forwarded from эйай ньюз
Multimodal Learning with Transformers: A Survey
Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.
Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.
В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.
❱❱ PDF
@ai_newz
Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.
Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.
В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.
@ai_newz
👍18
🔥BEiT-3: Image as a Foreign Language (by Microsoft)
Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)
Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).
Примечательно, что для обучения использовались только открытые данные.
Статья, GitHub
Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)
Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).
Примечательно, что для обучения использовались только открытые данные.
Статья, GitHub
👍41
Мудрость древнего Китая и щепотка нейронной магии — встречайте Нейро Конфуция!
Вы уже не ждали, а я доделал замену старому чатботу. Теперь снова есть с кем поболтать 💁♂️
@neural_chat_bot
Вы уже не ждали, а я доделал замену старому чатботу. Теперь снова есть с кем поболтать 💁♂️
@neural_chat_bot
👍75👎3
Forwarded from Соне нравится (или нет)
This media is not supported in your browser
VIEW IN TELEGRAM
Диффузионные модели начинают занимать лидирующую позицию и в задаче Motion Generation.
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model
Авторы данного подхода решили использовать свойство широкой вариативности и высокого качества генерации у диффузионных моделей для анимации движения человека с помощью текстовой подсказки и получили новую SOTA в данной задаче. Предыдущие решения не справлялись со сложным текстом или со стилизацией сгенерированных движений. Также авторы указали в своём пейпере, что их решение позволяет использовать очень точные текстовые описания, которые являлись сложными для предыдущих решений, потому что MotionDiffuse делит генерируемый скелет на верхнюю и нижнюю части. Поэтому можно получить качественных результат, к примеру, с помощью текста «a person is drinking water while walking» или «a person is walking and then running».
Но перейдём к более техническим деталям, которые заставляют это решение работать.
Скажу сразу, что многие идеи в пейпере переиспользуются из GLIDE, поэтому если вы не читали ещё пейпер про эту модель, то советую ознакомиться.
В MotionDiffuse вместо U-Net-подобной архитектуры был разработан Cross-Modality Linear Transformer, с помощью которого происходит генерация движений с произвольной длительностью, которая зависит от продолжительности генерируемого движения. Cross-Modality Linear Transformer подразумевает под собой обычный трансформер с энкодером и декодером, каждый блок такого трансфомера содержит: multi-head attention module (с residual connections) и feed-forward network (с тремя линейными преобразованиями и двумя GELU-слоями между ними). Для улучшения к обобщительной способности используются веса из CLIP для инициализации первых слоёв, которые зафризили и не обновляли в обучении.
Также были использованы Linear Self-attention для учёта связности анимации между кадрами и Linear Cross-attention для учёта текста в последовательности движения.
@sonya_aesthetics
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model
Авторы данного подхода решили использовать свойство широкой вариативности и высокого качества генерации у диффузионных моделей для анимации движения человека с помощью текстовой подсказки и получили новую SOTA в данной задаче. Предыдущие решения не справлялись со сложным текстом или со стилизацией сгенерированных движений. Также авторы указали в своём пейпере, что их решение позволяет использовать очень точные текстовые описания, которые являлись сложными для предыдущих решений, потому что MotionDiffuse делит генерируемый скелет на верхнюю и нижнюю части. Поэтому можно получить качественных результат, к примеру, с помощью текста «a person is drinking water while walking» или «a person is walking and then running».
Но перейдём к более техническим деталям, которые заставляют это решение работать.
Скажу сразу, что многие идеи в пейпере переиспользуются из GLIDE, поэтому если вы не читали ещё пейпер про эту модель, то советую ознакомиться.
В MotionDiffuse вместо U-Net-подобной архитектуры был разработан Cross-Modality Linear Transformer, с помощью которого происходит генерация движений с произвольной длительностью, которая зависит от продолжительности генерируемого движения. Cross-Modality Linear Transformer подразумевает под собой обычный трансформер с энкодером и декодером, каждый блок такого трансфомера содержит: multi-head attention module (с residual connections) и feed-forward network (с тремя линейными преобразованиями и двумя GELU-слоями между ними). Для улучшения к обобщительной способности используются веса из CLIP для инициализации первых слоёв, которые зафризили и не обновляли в обучении.
Также были использованы Linear Self-attention для учёта связности анимации между кадрами и Linear Cross-attention для учёта текста в последовательности движения.
@sonya_aesthetics
👍18
Diffusion Models: A Comprehensive Survey
Отличная обзорная статья с таксономией диффузионных моделей и всех видов сэмплирования. Тут даже есть сравнение диффузии с остальными генеративными подходами (см. картинку).
Статья
Отличная обзорная статья с таксономией диффузионных моделей и всех видов сэмплирования. Тут даже есть сравнение диффузии с остальными генеративными подходами (см. картинку).
Статья
👍39👎1
Charl-E: Text2image on your Mac
Stable Diffusion завернули в удобное оффлайн приложение для Mac с M1/M2. Теперь можно генерить картинки у себя на ноутбуке.
App, website
Stable Diffusion завернули в удобное оффлайн приложение для Mac с M1/M2. Теперь можно генерить картинки у себя на ноутбуке.
App, website
👍31
Forwarded from Kali Novskaya (Tatiana Shavrina)
No language left behind
#nlp #про_nlp
Достаточно тихо прошел важный релиз: Allen AI выложили датасет, воспроизведенный по одному из самых больших проектов по переводу: No language left behind
Суммарно 450Gb параллельных примеров доступно под открытой лицензией для 200 языков!
Статья: https://arxiv.org/pdf/2207.04672.pdf
Релиз данных от Allen AI: https://huggingface.co/datasets/allenai/nllb
#nlp #про_nlp
Достаточно тихо прошел важный релиз: Allen AI выложили датасет, воспроизведенный по одному из самых больших проектов по переводу: No language left behind
Суммарно 450Gb параллельных примеров доступно под открытой лицензией для 200 языков!
Статья: https://arxiv.org/pdf/2207.04672.pdf
Релиз данных от Allen AI: https://huggingface.co/datasets/allenai/nllb
👍32
Forwarded from AI для Всех
Dall-E стал доступным для всех
OpenAI только что отменили waitlist на доступ к Dall-E 2. Просто регаетесь и пользуетесь бесплатными кредитами
OpenAI только что отменили waitlist на доступ к Dall-E 2. Просто регаетесь и пользуетесь бесплатными кредитами
Openai
DALL·E now available without waitlist
New users can start creating straight away. Lessons learned from deployment and improvements to our safety systems make wider availability possible.
👍31👎2
This media is not supported in your browser
VIEW IN TELEGRAM
FusionDream: Text-to-3D (by Google)
Помните Dream Fields? Это была первая попытка zero-shot генерации 3D объектов по тексту. Недавно те же самые рисёрчеры сильно апгрейднули эту штуку с помощью Imagen. Качество невероятное!
Как и раньше, здесь тренируют NeRF, но вместо обучения по эмббеддингам CLIP используют text2image диффузию в качестве источника информации для лосса.
Статья, блог, GitHub
P.S. увидел тут
Помните Dream Fields? Это была первая попытка zero-shot генерации 3D объектов по тексту. Недавно те же самые рисёрчеры сильно апгрейднули эту штуку с помощью Imagen. Качество невероятное!
Как и раньше, здесь тренируют NeRF, но вместо обучения по эмббеддингам CLIP используют text2image диффузию в качестве источника информации для лосса.
Статья, блог, GitHub
P.S. увидел тут
👍19
This media is not supported in your browser
VIEW IN TELEGRAM
SayCan: как заставить языковую модель принести тебе колу (by Google)
Идея довольно простая: нужно взять робота, который уже умеет выполнять примитивные команды (найти, поднять, положить и тд), а в качестве мозгов для планирования взять языковую модель (PaLM) со специальным step-by-step промптом:
«How would you {TASK}? I would 1. ..., 2, …»
Дальше допустимые команды для робота ранжируются по перплексии и классификатором успеха (обученным с помощью RL). Таким образом, получилось заставить робота решать довольно сложные и многоступенчатые задачи.
Статья, блог, GitHub
Идея довольно простая: нужно взять робота, который уже умеет выполнять примитивные команды (найти, поднять, положить и тд), а в качестве мозгов для планирования взять языковую модель (PaLM) со специальным step-by-step промптом:
«How would you {TASK}? I would 1. ..., 2, …»
Дальше допустимые команды для робота ранжируются по перплексии и классификатором успеха (обученным с помощью RL). Таким образом, получилось заставить робота решать довольно сложные и многоступенчатые задачи.
Статья, блог, GitHub
👍44
🔥Grokking наконец обнаружили на нормальных датасетах! (by MIT)
И для этого даже не пришлось тратить миллиарды GPU-часов и покупать атомную электростанцию.
Чтобы воспроизвести эффект генерализации после оверфиттинга, нужно было всего лишь увеличить норму весов модели при инициализации!
Авторы описывают grokking через простую идею нормированного ландшафта лоссов. Предложенная теория отлично описывает не только этот эффект, но и double descent, и связь weight decay со временем обучения.
Статья
P.S. про grokking я рассказывал тут.
И для этого даже не пришлось тратить миллиарды GPU-часов и покупать атомную электростанцию.
Чтобы воспроизвести эффект генерализации после оверфиттинга, нужно было всего лишь увеличить норму весов модели при инициализации!
Авторы описывают grokking через простую идею нормированного ландшафта лоссов. Предложенная теория отлично описывает не только этот эффект, но и double descent, и связь weight decay со временем обучения.
Статья
P.S. про grokking я рассказывал тут.
👍80
This media is not supported in your browser
VIEW IN TELEGRAM
Imagen Video
У гугла получилось адаптировать Imagen для генерации видео!
Авторам пришлось немного переделать UNet и подмешать 14М пар text-video к датасету LAION, причём картинки воспринимаются моделью тоже как видео, но длиной в 1 кадр. В качестве энкодера используется замороженный T5-XXL.
В отличие от предыдущих работ, здесь даже получилось сгенерировать анимированный текст.
Статья, блог
У гугла получилось адаптировать Imagen для генерации видео!
Авторам пришлось немного переделать UNet и подмешать 14М пар text-video к датасету LAION, причём картинки воспринимаются моделью тоже как видео, но длиной в 1 кадр. В качестве энкодера используется замороженный T5-XXL.
В отличие от предыдущих работ, здесь даже получилось сгенерировать анимированный текст.
Статья, блог
👍37👎1
Chain-of-Thought: дайте GPT поразмышлять перед ответом! (by Google)
Большинство промптов для zero-shot нацелены на немедленное получение ответа, но оказалось, если дать языковой модели «поразмышлять вслух» над задачей, то вероятность правильного решения значительно повышается.
Теперь это кажется чертовски логичным! Ведь требовать ответ сразу без возможности подумать это слишком жестоко даже для людей 😅
Добавление простого «Lets think step-by-step» промпта позволило языковой модели PaLM обойти человека на 10 из 23 задач Big-Bench! Думаю, что chain-of-thought подход теперь должен стать общепринятым.
А ещё Google выпустил мультиязычную модель Flan-T5-xxl, которая дополнительно затюнена под этот промпт + лосс из UL2.
P.S. На скриншоте результат генерации для GPT-j.
Статья
Большинство промптов для zero-shot нацелены на немедленное получение ответа, но оказалось, если дать языковой модели «поразмышлять вслух» над задачей, то вероятность правильного решения значительно повышается.
Теперь это кажется чертовски логичным! Ведь требовать ответ сразу без возможности подумать это слишком жестоко даже для людей 😅
Добавление простого «Lets think step-by-step» промпта позволило языковой модели PaLM обойти человека на 10 из 23 задач Big-Bench! Думаю, что chain-of-thought подход теперь должен стать общепринятым.
А ещё Google выпустил мультиязычную модель Flan-T5-xxl, которая дополнительно затюнена под этот промпт + лосс из UL2.
P.S. На скриншоте результат генерации для GPT-j.
Статья
👍52
FusionBrain Challenge 2.0
Мои друзья из AIRI запустили соревнование по созданию универсальной multi-task модели, которая должна решать любую задачу в image&text доменах. Причём переключение задач должно осуществляться текстом (как в OFA).
Есть очень сильный бейзлайн на основе RUDOLPH-2.7B, который можно немного(?) дотюнить и выиграть 1М ₽.
Дедлайн 13 ноября.
Сайт, GitHub, модель
Мои друзья из AIRI запустили соревнование по созданию универсальной multi-task модели, которая должна решать любую задачу в image&text доменах. Причём переключение задач должно осуществляться текстом (как в OFA).
Есть очень сильный бейзлайн на основе RUDOLPH-2.7B, который можно немного(?) дотюнить и выиграть 1М ₽.
Дедлайн 13 ноября.
Сайт, GitHub, модель
👍19
Существуют ли задачи, которые большие языковые модели решают хуже чем маленькие?
По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей:
1. Вопросы с отрицанием.
2. Вопросы с ложной подсказкой.
3. Повторение искажённых цитат.
4. Вопросы со странной математикой.
Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.
Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.
Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁♂️
Статья
По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей:
1. Вопросы с отрицанием.
2. Вопросы с ложной подсказкой.
3. Повторение искажённых цитат.
4. Вопросы со странной математикой.
Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.
Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.
Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁♂️
Статья
👍33
🔥Embedding Diffusion for Text Generation (by DeepMind)
Наконец у кого-то получилось применить диффузию для генерации текста.
В качестве базовой модели используется оригинальный трансформер, который учится денойзить эмбеддинги токенов (которые взяли из BERT). Дальше эти эмбеддинги отображаются в логиты и таким образом генерируется текст — сразу весь, целиком.
А ещё тут смогли адаптировать метод classifier-free guidance для заполнения больших пропусков внутри текста.
P.S. на картинке процесс текстовой диффузии.
Статья
Наконец у кого-то получилось применить диффузию для генерации текста.
В качестве базовой модели используется оригинальный трансформер, который учится денойзить эмбеддинги токенов (которые взяли из BERT). Дальше эти эмбеддинги отображаются в логиты и таким образом генерируется текст — сразу весь, целиком.
А ещё тут смогли адаптировать метод classifier-free guidance для заполнения больших пропусков внутри текста.
P.S. на картинке процесс текстовой диффузии.
Статья
👍43
🔥Draw things: диффузия на iPhone!
Stable Diffusion теперь можно скачать из AppStore! Работает полностью оффлайн и очень быстро.
Сайт, AppStore
Stable Diffusion теперь можно скачать из AppStore! Работает полностью оффлайн и очень быстро.
Сайт, AppStore
👍30