эйай ньюз

🔥Stable Diffusion - топовая генеративная модель, да еще с открытым кодом (выкуси OpenAI)

Мои одногруппники по PhD из научной лабы CompVis выкатили обновленную версию Latent Diffusion Model (LDM), которую назвали Stable Diffusion.

Это модель, которую можно использовать для создания и изменения изображений на основе текстовых запросов. В этой версии они по аналогии с Imagen, вместо BERT-like языкового энкодера используют фиксированный предварительно обученный текстовый энкодер CLIP ViT-L/14. Сама диффузионная модель обучена на огромном датасете LAION-2B на 256 вдеокартах A100 примерно в течение месяца.

Результаты же этой модели на уровне с DALLE-2, если не лучше! А требует она в разы меньше ресурсов для инференса. Когда веса появятся в общем доступе (пока только по запросу), то можно будет её довольно быстро гонять даже в бесплатном коллабе.

❱❱ https://github.com/CompVis/stable-diffusion

12.5K views13:17

эйай ньюз

Сравнение OpenAI Dalle-2 vs Stable Diffusion

Я даю вам факты. Выводы делайте сами 😐

@ai_newz

10.6K views13:35

эйай ньюз

Тем временем у художников в твиттере дико бомбит, они требуют запретить бесовское AI. А аккаунт StableDiffusion уже выглядит так.

@ai_newz

32.8K viewsedited 14:01

эйай ньюз

Что думаете по поводу этого, господа?

Нужно ли запретить все эти выкрутасы с открытыми генеративными моделями, дабы сохранить ценность работы честных работяг, либо стоит адаптироваться и учиться встраивать AI в свою рабочую рутину и становиться более конкурентноспособными?

Этично ли использовать картины из открытого доступа для тренировки моделей?

Вэлком ту комментс.

@ai_newz

10.6K views14:57

Человек очень неплохо потрудился и написал сценарий истории нашего мира, вместив его в 36 текстовых промптов (что само по себе нетривиально). Затем он попросил Stable Diffusion сделать интерполяцию между запросами и создал это очешуенное видео.

Вот чем не искусство? Как раз пример хорошей работы артиста в симбиозе с машиной. SD - тут всего лишь инструмент для вооплощения идеи творца.

Но, конечно же, мне любопытно, когда нейросеть сама будет понимать смысл фразы "нарисуей историю человечества" без предоставления ей промежуточных промптов. Кажется тогда креативность художника может состоять в чем-то другом. Что думаете? Особенно интересно мнение художников.

@ai_newz

29.2K viewsedited 09:10

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Между делом Гугел отмасштабировал языковые модели и натренировал модель PaLM на 540 миллиардов (!) параметров . Для сравнения у GPT-3 было 175 миллиардов.

На гифке - примеры, демонстрирующие 1-shot способности PaLM 540B на бенчмарке BIG-bench: маркировка причин и следствий, концептуальное понимание, угадывание фильмов по смайликам, поиск синонимов и причинно-следственных связей.

@ai_newz

11.7K views08:21

эйай ньюз

В статье про PaLM дохульен авторов, но у двух первых взяли интервью. Кстати еще одна новость в том, что Google Research сегодня запустил свой канал на ютубе, где они будут регулярно постить интервью с ресерчерами и короткие видео про свои SOTA статьи. В общем, я подписался.

YouTube

Introducing language models to robotics

In this first episode of Meet a Google Researcher, Drew Calcagno speaks with researchers Sharan Narang and Aakanksha Chowdhery, folks who theorized and coded the Pathways Language Model, or PaLM.

PaLM is a new advanced language model that achieves state…

11.9K viewsedited 12:00

эйай ньюз

Занятная ~~ботанская~~ картинка показывающая таксономию и связи между различными мерами и расстояниями.

Хозяйке на заметку.

@ai_newz

9.9K views15:41

эйай ньюз

Ввиду всех этих далле и стабильных диффузий, предлагаю вашему вниманию CLIP-Допрашиватель! Штука помогает человеку без фантазии разобрать картинку в промпт с правильными ключевыми словами. То есть понравилась картинка - запихнул ее в интеррогатор, получил промпт и сгенерил еще кучу вариаций с помощью любимой диффузии.

Как работает? (а) Делаем captioning входной картинки с помощью BLIP. Затем пробегаемся по словарю стилей, жанров, течений в искусстве и арт платформ, и (b) с помощью CLIP находим наиболее релевантные для входной картинки. Комбинация (а) и (b) будет итоговым промптом.

Результат моего теста - на картинках:
1. Входное фото. Интеррогатор выдал «a little girl standing in front of a fire, a stock photo by Marina Abramović, shutterstock contest winner, tachisme, furaffinity, destructive, stock photo»
2. Выход Stable Diffusion по этому промпту.

Enjoy!

❱❱ Google colab

@ai_newz

10.2K views14:00

эйай ньюз

Multimodal Learning with Transformers: A Survey

Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.

Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.

В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.

❱❱ PDF

@ai_newz

15.9K views12:00

эйай ньюз

1:34

This media is not supported in your browser

VIEW IN TELEGRAM

Stable Diffusion стартовал вторую фазу беты и вышел из дискорда в веб. Любому желающему бесплатно дают кредитов на 200 генераций, а дальше за золотишко.

Я потыкал, и вот что у меня вышло. Честно сказать, если хочется что-то нормальное сгенерить, то 200 кредитов улетают со скоростью света, потому что в большинсвте своём генерится дегенеративный арт, а не дизайнерские конфетки.

Промт-инжениринг дело не легкое. Очевидно, что в скрытом пространстве сети только некоторые индивидуальный точки выглядят красиво и эстетично, и уходит много времени, чтобы их нащупать. В идеале, следующее поколение генеративных сетей должно решать именно эту проблему. Подбор промптов автоматически - это первый уродливый костыль в том направлении.

@ai_newz

9.2K views14:37

эйай ньюз

Forwarded from Derp Learning

Народная версия кода #stablediffusion для пролетариата!
512x512 теперь влезает даже в 4гб карточки!

Вы только посмотрите на эти счастливые лица промт инженеров из светлого будущего!

Реализация довольно простая - везде half precision, и всё, что в данный момент не используем, кладем на cpu.

Гит

@derplearning

7.6K views14:20

эйай ньюз

Веса Stable Diffusion официально релизнули в открытый доступ. Выкуси, OpenAI.

https://stability.ai/blog/stable-diffusion-public-release

Новый чекпоинт тут.
Что такое Stable Diffusion тут.

@ai_newz

Stability AI

Stable Diffusion Public Release — Stability AI

We are delighted to announce the public release of Stable Diffusion and the launch of DreamStudio Lite.

11.7K viewsedited 19:19

About

Blog

Apps

Platform