эйай ньюз
49K subscribers
1.19K photos
625 videos
7 files
1.5K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
🔥Stable Diffusion - топовая генеративная модель, да еще с открытым кодом (выкуси OpenAI)

Мои одногруппники по PhD из научной лабы CompVis выкатили обновленную версию Latent Diffusion Model (LDM), которую назвали Stable Diffusion.

Это модель, которую можно использовать для создания и изменения изображений на основе текстовых запросов. В этой версии они по аналогии с Imagen, вместо BERT-like языкового энкодера используют фиксированный предварительно обученный текстовый энкодер CLIP ViT-L/14. Сама диффузионная модель обучена на огромном датасете LAION-2B на 256 вдеокартах A100 примерно в течение месяца.

Результаты же этой модели на уровне с DALLE-2, если не лучше! А требует она в разы меньше ресурсов для инференса. Когда веса появятся в общем доступе (пока только по запросу), то можно будет её довольно быстро гонять даже в бесплатном коллабе.

❱❱ https://github.com/CompVis/stable-diffusion
Сравнение OpenAI Dalle-2 vs Stable Diffusion

Я даю вам факты. Выводы делайте сами 😐

@ai_newz
Тем временем у художников в твиттере дико бомбит, они требуют запретить бесовское AI. А аккаунт StableDiffusion уже выглядит так.

@ai_newz
Что думаете по поводу этого, господа?

Нужно ли запретить все эти выкрутасы с открытыми генеративными моделями, дабы сохранить ценность работы честных работяг, либо стоит адаптироваться и учиться встраивать AI в свою рабочую рутину и становиться более конкурентноспособными?

Этично ли использовать картины из открытого доступа для тренировки моделей?

Вэлком ту комментс.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Человек очень неплохо потрудился и написал сценарий истории нашего мира, вместив его в 36 текстовых промптов (что само по себе нетривиально). Затем он попросил Stable Diffusion сделать интерполяцию между запросами и создал это очешуенное видео.

Вот чем не искусство? Как раз пример хорошей работы артиста в симбиозе с машиной. SD - тут всего лишь инструмент для вооплощения идеи творца.

Но, конечно же, мне любопытно, когда нейросеть сама будет понимать смысл фразы "нарисуей историю человечества" без предоставления ей промежуточных промптов. Кажется тогда креативность художника может состоять в чем-то другом. Что думаете? Особенно интересно мнение художников.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Между делом Гугел отмасштабировал языковые модели и натренировал модель PaLM на 540 миллиардов (!) параметров . Для сравнения у GPT-3 было 175 миллиардов.

На гифке - примеры, демонстрирующие 1-shot способности PaLM 540B на бенчмарке BIG-bench: маркировка причин и следствий, концептуальное понимание, угадывание фильмов по смайликам, поиск синонимов и причинно-следственных связей.

@ai_newz
В статье про PaLM дохульен авторов, но у двух первых взяли интервью. Кстати еще одна новость в том, что Google Research сегодня запустил свой канал на ютубе, где они будут регулярно постить интервью с ресерчерами и короткие видео про свои SOTA статьи. В общем, я подписался.
Занятная ботанская картинка показывающая таксономию и связи между различными мерами и расстояниями.

Хозяйке на заметку.

@ai_newz
Ввиду всех этих далле и стабильных диффузий, предлагаю вашему вниманию CLIP-Допрашиватель! Штука помогает человеку без фантазии разобрать картинку в промпт с правильными ключевыми словами. То есть понравилась картинка - запихнул ее в интеррогатор, получил промпт и сгенерил еще кучу вариаций с помощью любимой диффузии.

Как работает? (а) Делаем captioning входной картинки с помощью BLIP. Затем пробегаемся по словарю стилей, жанров, течений в искусстве и арт платформ, и (b) с помощью CLIP находим наиболее релевантные для входной картинки. Комбинация (а) и (b) будет итоговым промптом.

Результат моего теста - на картинках:
1. Входное фото. Интеррогатор выдал «a little girl standing in front of a fire, a stock photo by Marina Abramović, shutterstock contest winner, tachisme, furaffinity, destructive, stock photo»
2. Выход Stable Diffusion по этому промпту.

Enjoy!

❱❱ Google colab

@ai_newz
Multimodal Learning with Transformers: A Survey

Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.

Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.

В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.

❱❱ PDF

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Stable Diffusion стартовал вторую фазу беты и вышел из дискорда в веб. Любому желающему бесплатно дают кредитов на 200 генераций, а дальше за золотишко.

Я потыкал, и вот что у меня вышло. Честно сказать, если хочется что-то нормальное сгенерить, то 200 кредитов улетают со скоростью света, потому что в большинсвте своём генерится дегенеративный арт, а не дизайнерские конфетки.

Промт-инжениринг дело не легкое. Очевидно, что в скрытом пространстве сети только некоторые индивидуальный точки выглядят красиво и эстетично, и уходит много времени, чтобы их нащупать. В идеале, следующее поколение генеративных сетей должно решать именно эту проблему. Подбор промптов автоматически - это первый уродливый костыль в том направлении.

@ai_newz
Forwarded from Derp Learning
Народная версия кода #stablediffusion для пролетариата!
512x512 теперь влезает даже в 4гб карточки!

Вы только посмотрите на эти счастливые лица промт инженеров из светлого будущего!


Реализация довольно простая - везде half precision, и всё, что в данный момент не используем, кладем на cpu.

Гит

@derplearning
Веса Stable Diffusion официально релизнули в открытый доступ. Выкуси, OpenAI.

https://stability.ai/blog/stable-diffusion-public-release

Новый чекпоинт тут.
Что такое Stable Diffusion тут.

@ai_newz