Derp Learning
13.1K subscribers
3.17K photos
913 videos
9 files
1.32K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
😁134😱13😢6🤩4🔥1
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️⚡️⚡️VideoFusion
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).

Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.

Статья
HuggingFace
🔥281
Forwarded from CGIT_Vines (Marvin Heemeyer)
По мотивам недавних событий (Artstation) или давних (Calculator) или тех, которые только будут? (AGI)
👍23😁94
Очередной мейнстримный варп. Предыдущим был крайний клип Linkin Park - Lost, теперь вот ещё один(-на) ветеран(-ша?/-ка?) - Goldwarpfrapp

Помню, видел ее, ещё в те времена, когда по MTV крутили музыку

https://twitter.com/alisongoldfrapp/status/1636337021982502912
🔥4😁1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Чистая, как слезинка сантехника, не испорченная никакими диффузиями, полностью математическая генерация космической станции с волюметрическими тенями, уместившаяся в 439 строчек кода.

Смотреть на shadertoy советую, развернув на полный экран.
🎉3013👍3
[Microsoft Kosmos-1] Language Is Not All You Need: Aligning Perception with Language Models
Авторы: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei
Статья: https://arxiv.org/abs/2302.14045

Тренд на мультимодальность пошёл очевидный. Позапрошлый год я бы назвал годом контрастных моделей по типу CLIP (https://t.me/gonzo_ML/665) / Align (https://t.me/gonzo_ML/679) / Florence (https://t.me/gonzo_ML/734). Прошлый был явно годом диффузионных text-to-image моделей типа DALLE-2 (https://t.me/gonzo_ML/919) и последующих Imagen, Stable Diffusion и т.п. Нынешний, мне кажется, может стать годом картиночно-языковых моделей (Visual Language Model, VLM) или скорее даже мультимодальных языковых моделей (Multimodal Large Language Model, MLLM), а то и воплощённых LLM (Embodied LLM). Из этой когорты уже появились в прошлом году VLM Flamingo от DeepMind (https://t.me/gonzo_ML/941) (которую оказывается реимплементит HuggingFace, https://t.me/gonzo_ML/1362) и CoCa (https://t.me/gonzo_ML/997) с PaLI (https://t.me/gonzo_ML/1085) от Гугла, да и дипмайндовская Gato (https://t.me/gonzo_ML/966) вполне можно назвать ELLM. Теперь в эту же когорту можно записать свежую PaLM-E (https://t.me/gonzo_ML/1350), и вот Microsoft недавно же анонсировал MLLM Kosmos-1 (https://t.me/gonzo_ML/1339). Ещё и GPT-4, кстати, нам пообещали мультимодальную на следующей неделе (https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html). Пока ждём GPT-4, разберём Kosmos-1 (хотя на самом деле в ближайшее время, я, наверное, переключусь на другие когорты интересных работ для разнообразия).

Что такого есть в Kosmos-1?

Модель это традиционный трансформер (декодер), который авторегрессионно генерит текст (как GPT) с картиночным энкодером из CLIP. На входе теперь в произвольных местах могут быть мультимодальные данные (в этой работе картинки, но потенциально и что угодно ещё, например, звук). Всего модель 1.6B параметров, весьма скромная. Для сравнения у Flamingo самая большая модель была 80B, из них 70B это Шиншилла (https://t.me/gonzo_ML/1216).

В целом в подобных моделях главный челлендж это как встроить не-текстовые модальности. Авторы строят работу на своей же MetaLM (https://arxiv.org/abs/2206.06336), в которой LLM выступала универсальным интерфейсом, выполняющим разные задачи, в который втыкались энкодеры всяких модальностей. Там же была предложена semi-causal language modeling objective, позволяющая тренировать совместно интерфейс с энкодерами. В этой постановке некоторые диапазоны токенов представлены двунаправленными энкодерами, а интерфейсная LM это традиционная causal LM.

Входной текст в модель размечается тегами <s> и </s> для определения начала/конца предложения, <image> и </image> для пометки границ диапазона картиночных эмбеддингов. Текстовые токены и другие входные модальности эмбеддятся в вектора и отправляются в декодер. В текущей работе картинки эмбеддили через vision encoder, также использовался Resampler из Flamingo (там он получал пространственно-временные признаки из зрительного энкодера и выдавал фиксированного размера множество визуальных токенов), он нужен для уменьшения количества картиночных эмбеддингов.

Декодер это трансформер Magneto (https://arxiv.org/abs/2210.06423), в котором есть дополнительные LayerNorm (такой подход называется Sub-LN в отличие от Pre/Post-LN), а также улучшенная теоретически обоснованная инициализация. У Magneto лучше перформанс и стабильность.

В декодере 24 слоя, 32 головы, 2048 скрытое измерение, 8192 FFN. Всего 1.3B параметров. Картиночные эмбеддинги размерности 1024 берутся из предобученного CLIP ViT-L/14. CLIP во время обучения был заморожен кроме последнего слоя.
7👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Приготовьтесь, Midjorney показала «Гарри Поттера» в стиле Balenciaga

r/#midjourney
🔥57😁26🤩4👍1
Forwarded from Геннадий Сойко
😁96👍8😢1
Forwarded from эйай ньюз
Так как все хостится локально, то можно безопасно подсунуть в модель свои личные документы и файлы (а не отправлять их на сервера OpenAI через API) и гонять лламу по ним как своего личного ассистента.

Мне, например, было бы некомфортно засылать свои емейлы в чатгпт. А вот в локальную копию Лламы я бы их загрузил.

Ллама, конечно, ещё послабее чем GPT-4, но ещё не вечер. Думаю, в опен-соурсе в ближайшее время появится что-то сравнимое с ChatGPT, благо есть много открытых инициатив. Народ продолжает допиливать LLaMa-Alpaca, ведется сбор датасетов в рамках Open Assistant, и ещё парочка других инициатив.

Могли бы вы представить 3 месяца назад, что сможете запускать в реальном времени большую языковую модель у себя на макбуке да и ещё по сути зарепродюсить голосового помощника типа Алексы?

Скорость прогресса просто mind-blowing!
🤩39👍5
От умельцев из eleuther.ai Вышел пейпер про text2structure.
Призван решить типичную для дизайнеров интерьеров проблему "смсзаказчикавджвачасаночи2планировочное решение"

Теперь генерить итерации можно гораздо быстрее

Пейпер
Тред
Модель на хф
🔥12
😁68🔥14🤩5😢3👍1
😁54👍17🔥5🤩1
Forwarded from La Qeque
🔥36😁142
Media is too big
VIEW IN TELEGRAM
#warpfusion

Vid by Ksenia Bonum
👍25🔥3😢1
This media is not supported in your browser
VIEW IN TELEGRAM
That 1983s vid has aged nicely
😁32🔥6😱2
Forwarded from твиттота
👍67😁17🔥119😢1
Forwarded from Complete AI (Andrey Kuznetsov)
🚀Kandinsky 2.1🚀
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные изменения относительно предшественницы 2.0.

Отличительные особенности включают:
📌3.3B параметров
📌Разрешение генераций - 768x768
📌Image prior трансформер
📌Новый автоэнкодер изображений MoVQ
📌Дообучение на очень чистом сете из 172M пар «текст-изображение»
📌Режимы работы: генерация по тексту, смешивание изображение, генерация изображений по образцу, изменение изображений по тексту, inpainting/outpainting

Всё это позволило добиться впечатляющего качества на различных доменах генераций.

FID на датасете COCO_30k достигает значения 8.21🔥 По публичным данным на сегодняшний день лучше только eDiffI (NVidia) и Imagen (Google Reseacrh).

Детально о модели можно прочитать в статье на Хабре, а протестировать Kandinsky 2.1 можно тут:
📍Телеграм-бот
📍FusionBrain.AI
📍GitHub
📍HuggingFace
📍rudalle.ru
📍MLSpace

Спасибо всей команде за слаженную и качественную работу - испытываю несказанное признание каждому🔥

@complete_ai
17👍1
Forwarded from fakana357
😱61👍71
😁903🔥2😢2
😁32😢14
Невероятно крутая статья, не похожая вообще ни на что, что я до этого видела – Generative Agents: Interactive Simulacra of Human Behavior
https://arxiv.org/pdf/2304.03442.pdf

Если кратко, то игру по типу Симс населили 25 персонажами, каждый со своим описанием личности, со своими воспоминаниями и со своими целями. Все действия персонажей и взаимодействия друг с другом происходили через генерацию LLM. В итоге персонажи очень быстро стали имитировать довольно сложное человеческое поведение – например, вместе организовали вечеринку в честь дня Святого Валентина, раздвали приглашения и назначали свидании. Более того, их действия, согласно оценкам размечиков, были более human, чем поведение людей, которых попросили играть за этих персонажей

У авторов очень прикольная идея с использованием контекста модели: все действия и наблюдения за окружающим миром сохраняются, далее из этой памяти достаются какие-то релевантные воспоминания. Их используют, чтобы генерить следующее действие / реплику в разговоре, и еще для модель просят над ними порефлексировать, чтобы сформулировать более долгосрочные планы. Так что персонаж может в observation, planning, and reflection

Кажется что это вообще бомба для всяких отыгрываний тех или иных агентов в чатах и может быть так будут выглядеть NPC будущего

UPD: забыла приложить также отличное демо – https://reverie.herokuapp.com/arXiv_Demo/

и довольно подробный тред о статье
37👍3