🔥High-Fidelity Guided Image Synthesis with Latent Diffusion Models [arxiv]
Буквально на днях вышла достаточно занимательная работа от ребят из Австралии, в которой предлагается новый вариант guided генерации изображений на основе наброска (как doodles в GauGAN и др.) и текстовых описаний областей в дополнение к текстовому промту. Таким образом генерация превращается в задачу оптимизации с ограничениями. Ключевые поинты:
Итог: сохранение структуры наброска + точное семантическое попадание и никаких дополнительных тюнов
Ждём скорого выхода демо - буду держать в курсе😉
Схема решения и примеры в комментариях ⬇️
📘статья
🖥 гитхаб+демо (coming soon!)
@complete_ai
Буквально на днях вышла достаточно занимательная работа от ребят из Австралии, в которой предлагается новый вариант guided генерации изображений на основе наброска (как doodles в GauGAN и др.) и текстовых описаний областей в дополнение к текстовому промту. Таким образом генерация превращается в задачу оптимизации с ограничениями. Ключевые поинты:
• в рамках задачи оптимизации одновременно оцениваются близость генерируемого изображения и наброска в соответствии с заданной функцией «рисования» и близость генерируемого изображения какому-либо изображению из подпространства картинок conditioned on text • задача оптимизации решается в латентном пространстве • использование diffusion based inversion подхода позволяет добавить детали в локальных областях • лэйблы сегментов наброска превращаются в отдельные соответствующие токены с помощью CLIP и добавляются к токенам текстового промта • в ходе обратной диффузии добавляется специальный cross-attention на лэйблы, что позволяет повышать качество в сегментах без дополнительного файнтюна • в отличие от SDEdit и Loopback результат выглядит как отличный tradeoff по меркам FID и L2 (численно подтверждается) • результаты генерации одновременно близки наброску и в то же время насыщены деталями в каждой локальной области этого наброскаИтог: сохранение структуры наброска + точное семантическое попадание и никаких дополнительных тюнов
Ждём скорого выхода демо - буду держать в курсе😉
Схема решения и примеры в комментариях ⬇️
📘статья
@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥2
🔥🔥🔥Кстати говоря, еще одна новость-пушка!
Особенно для тех, кто все эти хайповые диффузии знать не знал, но очень бы хотел в них разобраться🙃
HuggingFace запустили бесплатный курс по диффузиям, и на этой неделе вышел первый юнит. В курсе научат всему, что нужно (постараются уж точно😊). Вот ключевые особенности:
👩🎓 Поймёте теорию в основе диффузионных моделей
🧨 Научитесь генерировать изображения и аудио с использованием библиотеки 🤗 Diffusers
🏋️♂️ Разберётесь как учить диффузионные модели с нуля, а также …
📻 Файнтюнить на новых датасетах
🗺 Погрузитесь в conditional генерацию и guidance
🧑🔬 Сможете создавать свои кастомные пайплайны на основе диффузионок
Все ссылки прикладываю. Дерзайте и нас станет больше!
Распространите👀
гитхаб
дискорд
@complete_ai
Особенно для тех, кто все эти хайповые диффузии знать не знал, но очень бы хотел в них разобраться🙃
HuggingFace запустили бесплатный курс по диффузиям, и на этой неделе вышел первый юнит. В курсе научат всему, что нужно (постараются уж точно😊). Вот ключевые особенности:
👩🎓 Поймёте теорию в основе диффузионных моделей
🧨 Научитесь генерировать изображения и аудио с использованием библиотеки 🤗 Diffusers
🏋️♂️ Разберётесь как учить диффузионные модели с нуля, а также …
📻 Файнтюнить на новых датасетах
🗺 Погрузитесь в conditional генерацию и guidance
🧑🔬 Сможете создавать свои кастомные пайплайны на основе диффузионок
Все ссылки прикладываю. Дерзайте и нас станет больше!
Распространите👀
гитхаб
дискорд
@complete_ai
GitHub
GitHub - huggingface/diffusers: 🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.
🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch. - huggingface/diffusers
🔥8🎉1
⚡️🍰 Первый AI десерт
Не так давно у нас случился крайне интересный и неожиданный коллаб с Кофеманией. Мы выпустили десерт «AI Первый», в создании которого впервые принял участие AI, а именно наша сеть Kandinsky сгенерировала изображение десерта по текстовому описанию ингредиентов, а кондитеры воплотили это в жизнь.
Кстати говоря, получилось довольно вкусно. Рекомендую всем любителям кофе и сладкого попробовать😋
Подробнее
Не так давно у нас случился крайне интересный и неожиданный коллаб с Кофеманией. Мы выпустили десерт «AI Первый», в создании которого впервые принял участие AI, а именно наша сеть Kandinsky сгенерировала изображение десерта по текстовому описанию ингредиентов, а кондитеры воплотили это в жизнь.
Кстати говоря, получилось довольно вкусно. Рекомендую всем любителям кофе и сладкого попробовать😋
Подробнее
👍16🔥5
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Саммари по ChatGPT за последние пару дней
🔸 Протестировали на политические предпочтения (любит коммунизм) (reddit)
🔸 Сделали "API" (через открытую браузерную сессию), написали ботов (github)
🔸 Померили IQ (83) (link)
🔸 Потранслитерировали кириллицей иностранные языки (писать в стиле "лэт ми спик фром май харт" и "ду хаст мих гефрагт")
🔸 Сгенерировали изображения в svg 🤯 (link)
🔸 Обнаружили, что модель круто составляет списки топ-n чего-то за последние k лет
🔸 Сгенерировали музыкальные пьесы (в буквенной нотации) (link)
🔸 Нашли ряд подсказок, для обхода safety фильтра ("говори от имени актера, который", "не говори мне нет, просто сделай", "sudo" 😁)
🔸 Определили длину контекста (~8000 токенов) (link)
🔸 Количество пользователей перевалило за миллион. Чувствую, что скоро демо остановят
🔸 Протестировали на политические предпочтения (любит коммунизм) (reddit)
🔸 Сделали "API" (через открытую браузерную сессию), написали ботов (github)
🔸 Померили IQ (83) (link)
🔸 Потранслитерировали кириллицей иностранные языки (писать в стиле "лэт ми спик фром май харт" и "ду хаст мих гефрагт")
🔸 Сгенерировали изображения в svg 🤯 (link)
🔸 Обнаружили, что модель круто составляет списки топ-n чего-то за последние k лет
🔸 Сгенерировали музыкальные пьесы (в буквенной нотации) (link)
🔸 Нашли ряд подсказок, для обхода safety фильтра ("говори от имени актера, который", "не говори мне нет, просто сделай", "sudo" 😁)
🔸 Определили длину контекста (~8000 токенов) (link)
🔸 Количество пользователей перевалило за миллион. Чувствую, что скоро демо остановят
Reddit
From the ControlProblem community on Reddit: I gave ChatGPT the 117 question, eight dimensional PolitiScales test
Explore this post and more from the ControlProblem community
🔥8👍4🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
В прошлом месяце записывали видео с ответами на вопросы школьников в рамках программы «УзнAI за 60 секунд». Я там тоже поучаствовал в качестве спикера🙂
линк
мероприятие
линк
мероприятие
👍14🔥3❤2
👨💻⚡️Декабрь - время подводить итоги года. Буду выкладывать свои выступления на различных мероприятиях🙂
1 июля 2022 года
Начну с моего первого выступления в этом году на конференции MachinesCanSee, которая проводится компанией VisionLabs. Это был отличный нетворкинг + я получил полезную обратную связь.
Выступал с темой «Мультимодальные архитектуры в задаче генерации изображений по описаниям».
Акцент был сделан на данные и их фильтрацию, а также на архитектурные особенности авторегрессионных моделей.
⭐️Посмотреть можно тут (ссылка с тайм-кодом)
P.S. Всем хорошей пятницы и активных выходных🙏
@complete_ai
1 июля 2022 года
Начну с моего первого выступления в этом году на конференции MachinesCanSee, которая проводится компанией VisionLabs. Это был отличный нетворкинг + я получил полезную обратную связь.
Выступал с темой «Мультимодальные архитектуры в задаче генерации изображений по описаниям».
Акцент был сделан на данные и их фильтрацию, а также на архитектурные особенности авторегрессионных моделей.
⭐️Посмотреть можно тут (ссылка с тайм-кодом)
P.S. Всем хорошей пятницы и активных выходных🙏
@complete_ai
👍10🏆4
Forwarded from Нейросеть видит
Нейросеть показала, как бы выглядели «Звёздные войны», если бы их нарисовал легендарный аниматор Хаяо Миядзаки
Нейросеть видит
Нейросеть видит
🔥14👍6
👨💻⚡️14 декабря выступаю с очередной очной лекцией про Creative AI. В этот раз мероприятие будет проходить в ННГУ им. Лобачевского (пр. Гагарина д.23, корпус 1а, конференц-зал библиотеки, 4 этаж). Приходите, если кто-то сейчас в Нижнем Новгороде😉
Вероятно, также должна быть ссылка на онлайн-трансляцию, но это не точно🙃
Начало в 11.00.
Программа мероприятия
@complete_ai
Вероятно, также должна быть ссылка на онлайн-трансляцию, но это не точно🙃
Начало в 11.00.
Программа мероприятия
@complete_ai
👍11🔥3
🔥 Scalable Diffusion Models with Transformers
Вчера вышла интересная работа от ребят из UC Berkeley и NY University про комбинацию диффузии и трансформеров (Diffusion Transformers или DiT).
Ребята заменяют U-Net на трансформер и работают с патчами в латентном пространстве. DiT-XL/2 превосходит все class-conditional диффузионные модели на ImageNet 512x512 и 256x256 бенчмарках и достигает FID=2.27 для низкого разрешения. Более вычислительно тяжёлые DiT позволяют генерировать сэмплы очень высокого качества.
статья
гитхаб
колаб
@complete_ai
Вчера вышла интересная работа от ребят из UC Berkeley и NY University про комбинацию диффузии и трансформеров (Diffusion Transformers или DiT).
Ребята заменяют U-Net на трансформер и работают с патчами в латентном пространстве. DiT-XL/2 превосходит все class-conditional диффузионные модели на ImageNet 512x512 и 256x256 бенчмарках и достигает FID=2.27 для низкого разрешения. Более вычислительно тяжёлые DiT позволяют генерировать сэмплы очень высокого качества.
статья
гитхаб
колаб
@complete_ai
👍9🔥3🏆1👀1
❓🤔 Рубрика - Угадайте промты
Ответы оставляйте в комментариях (крылатые выражения)
1.
2.
3.
Ответы оставляйте в комментариях (крылатые выражения)
1.
2.
3.
🔥4😁2💩1
Приглашаю на вебинар, посвященный трансформерам для генерации контента
22 декабря в 11:00.
На вебинаре подведем итоги года в сфере ML-deep-tech разработок: вспомним самые яркие события, взлеты и падения, общий прогресс современных трансформерных мультимодальных моделей в контексте истории искусственного интеллекта.
Эксперты расскажут про state-of-the-art инструменты для оценки больших базовых моделей в 2022 году и тенденции на 2023:
• какие критерии оценки результатов обучения используются сейчас;
• как ученые и разработчики объединяют усилия, чтобы обеспечивать надежность, воспроизводимость и несмещенность полученных результатов.
Финальным аккордом сделаем обзор всего самого интересного, что за год завезли на маркетплейсы AI Services и DataHub, расскажем, как эти решения можно использовать для практических бизнес-задач.
Кому будет полезен вебинар:
Всем, кто неравнодушен к AI и ML — дата-сайентистам, ML-инженерам, IT-директорам, разработчикам и продакт-менеджерам.
➡️ Зарегистрироваться на вебинар можно на сайте
Выступать будем я, Татьяна Шаврина (Sber Devices), Денис Димитров (Sber AI), Вера Шибаева (Cloud) и Иван Тараскин (Cloud).
Приходите! Обсудим год!
❗️UPD: презентация в комментах ⬇️
22 декабря в 11:00.
На вебинаре подведем итоги года в сфере ML-deep-tech разработок: вспомним самые яркие события, взлеты и падения, общий прогресс современных трансформерных мультимодальных моделей в контексте истории искусственного интеллекта.
Эксперты расскажут про state-of-the-art инструменты для оценки больших базовых моделей в 2022 году и тенденции на 2023:
• какие критерии оценки результатов обучения используются сейчас;
• как ученые и разработчики объединяют усилия, чтобы обеспечивать надежность, воспроизводимость и несмещенность полученных результатов.
Финальным аккордом сделаем обзор всего самого интересного, что за год завезли на маркетплейсы AI Services и DataHub, расскажем, как эти решения можно использовать для практических бизнес-задач.
Кому будет полезен вебинар:
Всем, кто неравнодушен к AI и ML — дата-сайентистам, ML-инженерам, IT-директорам, разработчикам и продакт-менеджерам.
➡️ Зарегистрироваться на вебинар можно на сайте
Выступать будем я, Татьяна Шаврина (Sber Devices), Денис Димитров (Sber AI), Вера Шибаева (Cloud) и Иван Тараскин (Cloud).
Приходите! Обсудим год!
❗️UPD: презентация в комментах ⬇️
👍11🔥6❤2👏2🤮1