🔥Не перестаю гордиться нашей командой, которая заряжена строить крутые решения с горящими глазами и испытывать восхищение от получающихся результатов. Продолжаем подогревать Kandinsky 2.1😊
🤫Скоро раскроем подробности!
@complete_ai
🤫Скоро раскроем подробности!
@complete_ai
🔥41❤🔥9⚡3🎉2👍1
⚡️Довольно занимательный ресёрч вышел на днях от ребят из MIT и Northeastern University.
Erasing Concepts from Diffusion Models
Авторы предложили схему файнтюнинга для «удаления» из предобученной диффузионной модели для генерации изображений опредлённого вида контент (например, это пригодится для удаления обнажёнки, крови или просто каких-то специфичных объектов). Делается это через специальный метод negative guidance (негативные промты, которые позволяют указывать модели, чего ей НЕ нужно рисовать).
Эффект от файнтюнинга достигается путём обучения слоёв cross-attention, выходы которых зависят от промта (наличие слова “car” выделяет соответствующие контуры автомобиля на карте внимания - (a)).
🫣На пути к полной автоматизации редактирования изображений через текст (а если это ещё и в чатбот вкрутить)
Статья
Гитхаб
Erasing Concepts from Diffusion Models
Авторы предложили схему файнтюнинга для «удаления» из предобученной диффузионной модели для генерации изображений опредлённого вида контент (например, это пригодится для удаления обнажёнки, крови или просто каких-то специфичных объектов). Делается это через специальный метод negative guidance (негативные промты, которые позволяют указывать модели, чего ей НЕ нужно рисовать).
Эффект от файнтюнинга достигается путём обучения слоёв cross-attention, выходы которых зависят от промта (наличие слова “car” выделяет соответствующие контуры автомобиля на карте внимания - (a)).
🫣На пути к полной автоматизации редактирования изображений через текст (а если это ещё и в чатбот вкрутить)
Статья
Гитхаб
🔥13👍2
Накидать крутых генераций by Kandinsky 2.1?
Anonymous Poll
84%
Очень да🤗
16%
Не больно-то и хотелось😝
🔥10💯4👏3⚡2👍1
⚡️⚡️⚡️VideoFusion
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).
Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.
Статья
HuggingFace
@complete_ai
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).
Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.
Статья
HuggingFace
@complete_ai
🔥19👍6⚡3❤🔥2
🚀 A Survey of Large Language Models
Вышел свежий обзор больших языковых моделей - тех самых, о которых говорят, когда упоминают новый Bing, ChatGPT и GPT-4.
В работе рассказывают про способы обучения моделей, их файнтюнинг, инференс и возможности. Безусловно, большое внимание уделяется размеру моделей и соответствующим возможностям. Карта моделей также сделана очень аккуратно и по ней можно оценить, сколько уже команд работают в направлении фундаментальных языковых моделей, как долго длилось обучение и на каком объёме GPU.
📕Статья
@complete_ai
Вышел свежий обзор больших языковых моделей - тех самых, о которых говорят, когда упоминают новый Bing, ChatGPT и GPT-4.
В работе рассказывают про способы обучения моделей, их файнтюнинг, инференс и возможности. Безусловно, большое внимание уделяется размеру моделей и соответствующим возможностям. Карта моделей также сделана очень аккуратно и по ней можно оценить, сколько уже команд работают в направлении фундаментальных языковых моделей, как долго длилось обучение и на каком объёме GPU.
📕Статья
@complete_ai
🔥27👍5🎉3
🚀Kandinsky 2.1🚀
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные изменения относительно предшественницы 2.0.
Отличительные особенности включают:
📌3.3B параметров
📌Разрешение генераций - 768x768
📌Image prior трансформер
📌Новый автоэнкодер изображений MoVQ
📌Дообучение на очень чистом сете из 172M пар «текст-изображение»
📌Режимы работы: генерация по тексту, смешивание изображение, генерация изображений по образцу, изменение изображений по тексту, inpainting/outpainting
Всё это позволило добиться впечатляющего качества на различных доменах генераций.
FID на датасете COCO_30k достигает значения 8.21🔥 По публичным данным на сегодняшний день лучше только eDiffI (NVidia) и Imagen (Google Reseacrh).
Детально о модели можно прочитать в статье на Хабре, а протестировать Kandinsky 2.1 можно тут:
📍Телеграм-бот
📍FusionBrain.AI
📍GitHub
📍HuggingFace
📍rudalle.ru
📍MLSpace
Спасибо всей команде за слаженную и качественную работу - испытываю несказанную признательность каждому🔥
@complete_ai
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные изменения относительно предшественницы 2.0.
Отличительные особенности включают:
📌3.3B параметров
📌Разрешение генераций - 768x768
📌Image prior трансформер
📌Новый автоэнкодер изображений MoVQ
📌Дообучение на очень чистом сете из 172M пар «текст-изображение»
📌Режимы работы: генерация по тексту, смешивание изображение, генерация изображений по образцу, изменение изображений по тексту, inpainting/outpainting
Всё это позволило добиться впечатляющего качества на различных доменах генераций.
FID на датасете COCO_30k достигает значения 8.21🔥 По публичным данным на сегодняшний день лучше только eDiffI (NVidia) и Imagen (Google Reseacrh).
Детально о модели можно прочитать в статье на Хабре, а протестировать Kandinsky 2.1 можно тут:
📍Телеграм-бот
📍FusionBrain.AI
📍GitHub
📍HuggingFace
📍rudalle.ru
📍MLSpace
Спасибо всей команде за слаженную и качественную работу - испытываю несказанную признательность каждому🔥
@complete_ai
Хабр
Kandinsky 2.1, или Когда +0,1 значит очень много
В ноябре 2022 года мы выпустили свою первую диффузионную модель для синтеза изображений по текстовым описаниям Kandinsky 2.0 , которая собрала как позитивные, так и отрицательные отклики. Её ключевой...
🔥82👏23👍13❤🔥11👎6🏆6
Forwarded from Градиентное погружение (cene655)
Кандинский 2.1 на 4 месте в Github trending!
GitHub
GitHub is where people build software. More than 150 million people use GitHub to discover, fork, and contribute to over 420 million projects.
🔥59🎉12⚡5👍3🏆3👎1