🔥Stable Diffusion - топовая генеративная модель, да еще с открытым кодом (выкуси OpenAI)
Мои одногруппники по PhD из научной лабы CompVis выкатили обновленную версию Latent Diffusion Model (LDM), которую назвали Stable Diffusion.
Это модель, которую можно использовать для создания и изменения изображений на основе текстовых запросов. В этой версии они по аналогии с Imagen, вместо BERT-like языкового энкодера используют фиксированный предварительно обученный текстовый энкодер CLIP ViT-L/14. Сама диффузионная модель обучена на огромном датасете LAION-2B на 256 вдеокартах A100 примерно в течение месяца.
Результаты же этой модели на уровне с DALLE-2, если не лучше! А требует она в разы меньше ресурсов для инференса. Когда веса появятся в общем доступе (пока только по запросу), то можно будет её довольно быстро гонять даже в бесплатном коллабе.
❱❱ https://github.com/CompVis/stable-diffusion
Мои одногруппники по PhD из научной лабы CompVis выкатили обновленную версию Latent Diffusion Model (LDM), которую назвали Stable Diffusion.
Это модель, которую можно использовать для создания и изменения изображений на основе текстовых запросов. В этой версии они по аналогии с Imagen, вместо BERT-like языкового энкодера используют фиксированный предварительно обученный текстовый энкодер CLIP ViT-L/14. Сама диффузионная модель обучена на огромном датасете LAION-2B на 256 вдеокартах A100 примерно в течение месяца.
Результаты же этой модели на уровне с DALLE-2, если не лучше! А требует она в разы меньше ресурсов для инференса. Когда веса появятся в общем доступе (пока только по запросу), то можно будет её довольно быстро гонять даже в бесплатном коллабе.
❱❱ https://github.com/CompVis/stable-diffusion
Что думаете по поводу этого, господа?
Нужно ли запретить все эти выкрутасы с открытыми генеративными моделями, дабы сохранить ценность работы честных работяг, либо стоит адаптироваться и учиться встраивать AI в свою рабочую рутину и становиться более конкурентноспособными?
Этично ли использовать картины из открытого доступа для тренировки моделей?
Вэлком ту комментс.
@ai_newz
Нужно ли запретить все эти выкрутасы с открытыми генеративными моделями, дабы сохранить ценность работы честных работяг, либо стоит адаптироваться и учиться встраивать AI в свою рабочую рутину и становиться более конкурентноспособными?
Этично ли использовать картины из открытого доступа для тренировки моделей?
Вэлком ту комментс.
@ai_newz
Media is too big
VIEW IN TELEGRAM
Человек очень неплохо потрудился и написал сценарий истории нашего мира, вместив его в 36 текстовых промптов (что само по себе нетривиально). Затем он попросил Stable Diffusion сделать интерполяцию между запросами и создал это очешуенное видео.
Вот чем не искусство? Как раз пример хорошей работы артиста в симбиозе с машиной. SD - тут всего лишь инструмент для вооплощения идеи творца.
Но, конечно же, мне любопытно, когда нейросеть сама будет понимать смысл фразы "нарисуей историю человечества" без предоставления ей промежуточных промптов. Кажется тогда креативность художника может состоять в чем-то другом. Что думаете? Особенно интересно мнение художников.
@ai_newz
Вот чем не искусство? Как раз пример хорошей работы артиста в симбиозе с машиной. SD - тут всего лишь инструмент для вооплощения идеи творца.
Но, конечно же, мне любопытно, когда нейросеть сама будет понимать смысл фразы "нарисуей историю человечества" без предоставления ей промежуточных промптов. Кажется тогда креативность художника может состоять в чем-то другом. Что думаете? Особенно интересно мнение художников.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Между делом Гугел отмасштабировал языковые модели и натренировал модель PaLM на 540 миллиардов (!) параметров . Для сравнения у GPT-3 было 175 миллиардов.
На гифке - примеры, демонстрирующие 1-shot способности PaLM 540B на бенчмарке BIG-bench: маркировка причин и следствий, концептуальное понимание, угадывание фильмов по смайликам, поиск синонимов и причинно-следственных связей.
@ai_newz
На гифке - примеры, демонстрирующие 1-shot способности PaLM 540B на бенчмарке BIG-bench: маркировка причин и следствий, концептуальное понимание, угадывание фильмов по смайликам, поиск синонимов и причинно-следственных связей.
@ai_newz
В статье про PaLM дохульен авторов, но у двух первых взяли интервью. Кстати еще одна новость в том, что Google Research сегодня запустил свой канал на ютубе, где они будут регулярно постить интервью с ресерчерами и короткие видео про свои SOTA статьи. В общем, я подписался.
YouTube
Introducing language models to robotics
In this first episode of Meet a Google Researcher, Drew Calcagno speaks with researchers Sharan Narang and Aakanksha Chowdhery, folks who theorized and coded the Pathways Language Model, or PaLM.
PaLM is a new advanced language model that achieves state…
PaLM is a new advanced language model that achieves state…
Ввиду всех этих далле и стабильных диффузий, предлагаю вашему вниманию CLIP-Допрашиватель! Штука помогает человеку без фантазии разобрать картинку в промпт с правильными ключевыми словами. То есть понравилась картинка - запихнул ее в интеррогатор, получил промпт и сгенерил еще кучу вариаций с помощью любимой диффузии.
Как работает? (а) Делаем captioning входной картинки с помощью BLIP. Затем пробегаемся по словарю стилей, жанров, течений в искусстве и арт платформ, и (b) с помощью CLIP находим наиболее релевантные для входной картинки. Комбинация (а) и (b) будет итоговым промптом.
Результат моего теста - на картинках:
1. Входное фото. Интеррогатор выдал «a little girl standing in front of a fire, a stock photo by Marina Abramović, shutterstock contest winner, tachisme, furaffinity, destructive, stock photo»
2. Выход Stable Diffusion по этому промпту.
Enjoy!
❱❱ Google colab
@ai_newz
Как работает? (а) Делаем captioning входной картинки с помощью BLIP. Затем пробегаемся по словарю стилей, жанров, течений в искусстве и арт платформ, и (b) с помощью CLIP находим наиболее релевантные для входной картинки. Комбинация (а) и (b) будет итоговым промптом.
Результат моего теста - на картинках:
1. Входное фото. Интеррогатор выдал «a little girl standing in front of a fire, a stock photo by Marina Abramović, shutterstock contest winner, tachisme, furaffinity, destructive, stock photo»
2. Выход Stable Diffusion по этому промпту.
Enjoy!
❱❱ Google colab
@ai_newz
Multimodal Learning with Transformers: A Survey
Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.
Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.
В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.
❱❱ PDF
@ai_newz
Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.
Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.
В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Stable Diffusion стартовал вторую фазу беты и вышел из дискорда в веб. Любому желающему бесплатно дают кредитов на 200 генераций, а дальше за золотишко.
Я потыкал, и вот что у меня вышло. Честно сказать, если хочется что-то нормальное сгенерить, то 200 кредитов улетают со скоростью света, потому что в большинсвте своём генерится дегенеративный арт, а не дизайнерские конфетки.
Промт-инжениринг дело не легкое. Очевидно, что в скрытом пространстве сети только некоторые индивидуальный точки выглядят красиво и эстетично, и уходит много времени, чтобы их нащупать. В идеале, следующее поколение генеративных сетей должно решать именно эту проблему. Подбор промптов автоматически - это первый уродливый костыль в том направлении.
@ai_newz
Я потыкал, и вот что у меня вышло. Честно сказать, если хочется что-то нормальное сгенерить, то 200 кредитов улетают со скоростью света, потому что в большинсвте своём генерится дегенеративный арт, а не дизайнерские конфетки.
Промт-инжениринг дело не легкое. Очевидно, что в скрытом пространстве сети только некоторые индивидуальный точки выглядят красиво и эстетично, и уходит много времени, чтобы их нащупать. В идеале, следующее поколение генеративных сетей должно решать именно эту проблему. Подбор промптов автоматически - это первый уродливый костыль в том направлении.
@ai_newz
Forwarded from Derp Learning
Народная версия кода #stablediffusion для пролетариата!
512x512 теперь влезает даже в 4гб карточки!
Вы только посмотрите на эти счастливые лица промт инженеров из светлого будущего!
Реализация довольно простая - везде half precision, и всё, что в данный момент не используем, кладем на cpu.
Гит
@derplearning
512x512 теперь влезает даже в 4гб карточки!
Вы только посмотрите на эти счастливые лица промт инженеров из светлого будущего!
Реализация довольно простая - везде half precision, и всё, что в данный момент не используем, кладем на cpu.
Гит
@derplearning
Веса Stable Diffusion официально релизнули в открытый доступ. Выкуси, OpenAI.
https://stability.ai/blog/stable-diffusion-public-release
Новый чекпоинт тут.
Что такое Stable Diffusion тут.
@ai_newz
https://stability.ai/blog/stable-diffusion-public-release
Новый чекпоинт тут.
Что такое Stable Diffusion тут.
@ai_newz
Stability AI
Stable Diffusion Public Release — Stability AI
We are delighted to announce the public release of Stable Diffusion and the launch of DreamStudio Lite.
This media is not supported in your browser
VIEW IN TELEGRAM
Пока половина интернета носится со стейбл диффузией, другие люди делают реальные научные прорывы.
FAIR/MetaAI выпустили ESM2 – языковую модель для протеинов (до 15 млрд параметров), которая на уровне с AlphaFold по точности, но на порядок быстрее. Что открывает новые возможности для использования ее реальными молекулярными биологами в повседневной работе.
Одна из многих задач, которую умеет решать модель - это восстановление полной атомарной структуры белка, по небольшой входной последовательности.
❱❱ Статья
❱❱ Код и веса
@ai_newz
FAIR/MetaAI выпустили ESM2 – языковую модель для протеинов (до 15 млрд параметров), которая на уровне с AlphaFold по точности, но на порядок быстрее. Что открывает новые возможности для использования ее реальными молекулярными биологами в повседневной работе.
Одна из многих задач, которую умеет решать модель - это восстановление полной атомарной структуры белка, по небольшой входной последовательности.
❱❱ Статья
❱❱ Код и веса
@ai_newz
Познавательная лекция от Michael Zollhöfer, ученого из Meta Reality Labs, о разработках в области теле-присутствия: реалистичные аватары, живой звуке в метаверсе, нейронный рендеринг для пространств и прочие крутые штуки.
Лекция
@ai_newz
Лекция
@ai_newz
YouTube
TUM AI Lecture Series - Complete Codec Telepresence (Michael Zollhoefer)
Abstract:
Imagine two people, each of them within their own home, being able to communicate and interact virtually with each other as if they are both present in the same shared physical space. Enabling such an experience, i.e., building a telepresence system…
Imagine two people, each of them within their own home, being able to communicate and interact virtually with each other as if they are both present in the same shared physical space. Enabling such an experience, i.e., building a telepresence system…
This media is not supported in your browser
VIEW IN TELEGRAM