Всем привет!
Мой первый пост в канале начинается в самый разгар конференции AIJ🎉
Сегодня 24.11.2022 года - второй день конференции AI Journey, к которой наши команды готовились весь год. У меня будет доклад в секции «Science&Business» в 16.00 (мск).
Расскажу про «Технологии компьютерного зрения в задачах высококачественного синтеза мультимедийного контента». Будут детали про две наших ключевых модели генерации изображений за 2022 год: Kandinsky и Kandinsky 2.0 (кстати, официальный пресс-релиз состоялся вчера - пресс-релиз, Хабр, GitHub, платформа fusionbrain).
Залетайте на прямую трансляцию на сайте AIJ - будет очень интересно!👨💻
Буду рад ответить на вопросы по докладу!🎉
P.S. Кстати, на платформе fusionbrain можно поиграть с новым Кандинским в режимах генерации и inpainting/outpainting.
Мой первый пост в канале начинается в самый разгар конференции AIJ🎉
Сегодня 24.11.2022 года - второй день конференции AI Journey, к которой наши команды готовились весь год. У меня будет доклад в секции «Science&Business» в 16.00 (мск).
Расскажу про «Технологии компьютерного зрения в задачах высококачественного синтеза мультимедийного контента». Будут детали про две наших ключевых модели генерации изображений за 2022 год: Kandinsky и Kandinsky 2.0 (кстати, официальный пресс-релиз состоялся вчера - пресс-релиз, Хабр, GitHub, платформа fusionbrain).
Залетайте на прямую трансляцию на сайте AIJ - будет очень интересно!
Буду рад ответить на вопросы по докладу!🎉
P.S. Кстати, на платформе fusionbrain можно поиграть с новым Кандинским в режимах генерации и inpainting/outpainting.
Please open Telegram to view this post
VIEW IN TELEGRAM
AI Journey
Конференция AI Journey 2025. Ключевые спикеры в сфере технологий искусственного интеллекта
Конференция AI Journey 2025. Ключевые спикеры в сфере технологий искусственного интеллекта.
🔥16⚡3🎉3👍1
Forwarded from Градиентное погружение (cene655)
🔥 Первая модель для генерации картинок для 100+ языков
Представляю вам модель Кандинский 2.0, над которой мы в Сбере много работали. Весь код и веса модели в опенсурсе!
Принцип её работы - латентная диффузия. Мы взяли мультиязычный CLIP и mt5-small, сделав из них ансамбль.
Вы можете проверить её прямо в браузере без какой-либо регистрации! На ваш выбор: генерация картинок или inpainting.
@gradientdip
статья на хабр
гитхаб
Представляю вам модель Кандинский 2.0, над которой мы в Сбере много работали. Весь код и веса модели в опенсурсе!
Принцип её работы - латентная диффузия. Мы взяли мультиязычный CLIP и mt5-small, сделав из них ансамбль.
Вы можете проверить её прямо в браузере без какой-либо регистрации! На ваш выбор: генерация картинок или inpainting.
@gradientdip
статья на хабр
гитхаб
🔥18🍾2
Хоть это и не относится к теме канала, но тем не менее хочется всех мам поздравить с Днём Матери!
Мама - вечный символ добра, прощения и защиты от всего плохого, а еще самое понятное слово в мире🙏
С праздником! Всем добра🌹
Мама - вечный символ добра, прощения и защиты от всего плохого, а еще самое понятное слово в мире🙏
С праздником! Всем добра🌹
❤28
Forwarded from эйай ньюз
Хорошая новость для тех, кто не попал на NeurIPS. Скоро стартует курс по диффузионным моделям от Hugging Face 🔥.
А 30 ноября (завтра) его откроют докладами от крутых чуваков - создателей Stable Diffusion (Stability + Runwayml) и Make-a-Video (Meta AI).
Зарегаться можно тут.
@ai_newz
А 30 ноября (завтра) его откроют докладами от крутых чуваков - создателей Stable Diffusion (Stability + Runwayml) и Make-a-Video (Meta AI).
Зарегаться можно тут.
@ai_newz
👍10
Всем привет!
3 декабря в 18.50 (мск) на YaTalks дискутирую с ребятами из Яндекса (Сергей Овчаренко и Валентин Хрульков) на тему:
«Генерация изображений нейросетями: как работают нейросети и изменят ли они мир создания контента».
Обсудим современные архитектуры для генерации изображений, проблемные области генерации, обязательно поговорим, как страшно жить в последние годы дизайнерам от всех этих AI-штучек, да и в целом прикинем, как жить дальше в этом динамично меняющемся мире искусственного интеллекта.
Приходите послушать, вопросы можно оставлять в комментариях к посту или в ходе конференции на платформе.
До встречи на YaTalks!
Описание дискуссии можно найти по ссылке
@complete_ai
3 декабря в 18.50 (мск) на YaTalks дискутирую с ребятами из Яндекса (Сергей Овчаренко и Валентин Хрульков) на тему:
«Генерация изображений нейросетями: как работают нейросети и изменят ли они мир создания контента».
Обсудим современные архитектуры для генерации изображений, проблемные области генерации, обязательно поговорим, как страшно жить в последние годы дизайнерам от всех этих AI-штучек, да и в целом прикинем, как жить дальше в этом динамично меняющемся мире искусственного интеллекта.
Приходите послушать, вопросы можно оставлять в комментариях к посту или в ходе конференции на платформе.
До встречи на YaTalks!
Описание дискуссии можно найти по ссылке
@complete_ai
yatalks.yandex.ru
Главная конференция Яндекса для IT-сообщества — YaTalks 2023
5 и 6 декабря более 100 экспертов IT-индустрии и учёных выступят в Москве и Белграде с техническими докладами о разработке и ML и с научно-популярными лекциями.
🔥15👍3❤2👏1
Совсем недавно вышла бета версия библиотеки TorchMultimodal (ссылка), в которой авторы постарались собрать все лучшие техники и фичи обучения SoTA мультизадачных мультимодальных (М2) архитектур:
Всё это позволит ставить быстрые и удобные эксперименты для обучения М2 моделей.
В довесок авторы сделали интересный пост о распределённом обучении (ссылка), где на примере модели FLAVA (мультимодальный late fusion трансформер) показали, как можно её масштабировать с 350M параметров до 10B. Рассмотрели два ключевых подхода:
1. Distributed Data Parallel - нарезка датасета по воркерам, градиенты синхронизируются ДО обновления весов, по сути вся модель «реплицируется»
2. Fully Sharded Data Parallel - параметры, градиенты и состояния оптимизатора нарезаются (шардируются) по воркерам (а-ля ZeRO-3), перед forward и backward propagation шарды объединяются.
Сравнение производительности (среднее число сэмплов в секунду за исключением первых 100 на warmup) можно оценить на графике.
github
статья про TorchMultimodal
статья про Scaling Multimodal Foundation Models
@complete_ai
• слои, обработчики для разных модальностей, лосс функции (Contrastive Loss, Codebook слои, Shifted-window Attention, Components for CLIP, Multimodal GPT, Multi Head Attention) • SoTA архитектуры (FLAVA, DETR, …) • скрипты обучения и инференса • примеры использованияВсё это позволит ставить быстрые и удобные эксперименты для обучения М2 моделей.
В довесок авторы сделали интересный пост о распределённом обучении (ссылка), где на примере модели FLAVA (мультимодальный late fusion трансформер) показали, как можно её масштабировать с 350M параметров до 10B. Рассмотрели два ключевых подхода:
1. Distributed Data Parallel - нарезка датасета по воркерам, градиенты синхронизируются ДО обновления весов, по сути вся модель «реплицируется»
2. Fully Sharded Data Parallel - параметры, градиенты и состояния оптимизатора нарезаются (шардируются) по воркерам (а-ля ZeRO-3), перед forward и backward propagation шарды объединяются.
Сравнение производительности (среднее число сэмплов в секунду за исключением первых 100 на warmup) можно оценить на графике.
github
статья про TorchMultimodal
статья про Scaling Multimodal Foundation Models
@complete_ai
🔥8
Не смог пройти мимо залипательной штуки, превращающей тебя в героев анимэ (хотя я и не фанат).
UI весь на китайском, но интуитивно понятно (пробуйте на смартфоне, либо окно браузера вытяните в портретный вид).
Кто ты из «Унесённых призраками» можно сгенерить тут.
Кидайте себя крашей в комментах😀
UI весь на китайском, но интуитивно понятно (пробуйте на смартфоне, либо окно браузера вытяните в портретный вид).
Кто ты из «Унесённых призраками» можно сгенерить тут.
Кидайте себя крашей в комментах😀
👍20
🔥High-Fidelity Guided Image Synthesis with Latent Diffusion Models [arxiv]
Буквально на днях вышла достаточно занимательная работа от ребят из Австралии, в которой предлагается новый вариант guided генерации изображений на основе наброска (как doodles в GauGAN и др.) и текстовых описаний областей в дополнение к текстовому промту. Таким образом генерация превращается в задачу оптимизации с ограничениями. Ключевые поинты:
Итог: сохранение структуры наброска + точное семантическое попадание и никаких дополнительных тюнов
Ждём скорого выхода демо - буду держать в курсе😉
Схема решения и примеры в комментариях ⬇️
📘статья
🖥 гитхаб+демо (coming soon!)
@complete_ai
Буквально на днях вышла достаточно занимательная работа от ребят из Австралии, в которой предлагается новый вариант guided генерации изображений на основе наброска (как doodles в GauGAN и др.) и текстовых описаний областей в дополнение к текстовому промту. Таким образом генерация превращается в задачу оптимизации с ограничениями. Ключевые поинты:
• в рамках задачи оптимизации одновременно оцениваются близость генерируемого изображения и наброска в соответствии с заданной функцией «рисования» и близость генерируемого изображения какому-либо изображению из подпространства картинок conditioned on text • задача оптимизации решается в латентном пространстве • использование diffusion based inversion подхода позволяет добавить детали в локальных областях • лэйблы сегментов наброска превращаются в отдельные соответствующие токены с помощью CLIP и добавляются к токенам текстового промта • в ходе обратной диффузии добавляется специальный cross-attention на лэйблы, что позволяет повышать качество в сегментах без дополнительного файнтюна • в отличие от SDEdit и Loopback результат выглядит как отличный tradeoff по меркам FID и L2 (численно подтверждается) • результаты генерации одновременно близки наброску и в то же время насыщены деталями в каждой локальной области этого наброскаИтог: сохранение структуры наброска + точное семантическое попадание и никаких дополнительных тюнов
Ждём скорого выхода демо - буду держать в курсе😉
Схема решения и примеры в комментариях ⬇️
📘статья
@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥2
🔥🔥🔥Кстати говоря, еще одна новость-пушка!
Особенно для тех, кто все эти хайповые диффузии знать не знал, но очень бы хотел в них разобраться🙃
HuggingFace запустили бесплатный курс по диффузиям, и на этой неделе вышел первый юнит. В курсе научат всему, что нужно (постараются уж точно😊). Вот ключевые особенности:
👩🎓 Поймёте теорию в основе диффузионных моделей
🧨 Научитесь генерировать изображения и аудио с использованием библиотеки 🤗 Diffusers
🏋️♂️ Разберётесь как учить диффузионные модели с нуля, а также …
📻 Файнтюнить на новых датасетах
🗺 Погрузитесь в conditional генерацию и guidance
🧑🔬 Сможете создавать свои кастомные пайплайны на основе диффузионок
Все ссылки прикладываю. Дерзайте и нас станет больше!
Распространите👀
гитхаб
дискорд
@complete_ai
Особенно для тех, кто все эти хайповые диффузии знать не знал, но очень бы хотел в них разобраться🙃
HuggingFace запустили бесплатный курс по диффузиям, и на этой неделе вышел первый юнит. В курсе научат всему, что нужно (постараются уж точно😊). Вот ключевые особенности:
👩🎓 Поймёте теорию в основе диффузионных моделей
🧨 Научитесь генерировать изображения и аудио с использованием библиотеки 🤗 Diffusers
🏋️♂️ Разберётесь как учить диффузионные модели с нуля, а также …
📻 Файнтюнить на новых датасетах
🗺 Погрузитесь в conditional генерацию и guidance
🧑🔬 Сможете создавать свои кастомные пайплайны на основе диффузионок
Все ссылки прикладываю. Дерзайте и нас станет больше!
Распространите👀
гитхаб
дискорд
@complete_ai
GitHub
GitHub - huggingface/diffusers: 🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.
🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch. - huggingface/diffusers
🔥8🎉1
⚡️🍰 Первый AI десерт
Не так давно у нас случился крайне интересный и неожиданный коллаб с Кофеманией. Мы выпустили десерт «AI Первый», в создании которого впервые принял участие AI, а именно наша сеть Kandinsky сгенерировала изображение десерта по текстовому описанию ингредиентов, а кондитеры воплотили это в жизнь.
Кстати говоря, получилось довольно вкусно. Рекомендую всем любителям кофе и сладкого попробовать😋
Подробнее
Не так давно у нас случился крайне интересный и неожиданный коллаб с Кофеманией. Мы выпустили десерт «AI Первый», в создании которого впервые принял участие AI, а именно наша сеть Kandinsky сгенерировала изображение десерта по текстовому описанию ингредиентов, а кондитеры воплотили это в жизнь.
Кстати говоря, получилось довольно вкусно. Рекомендую всем любителям кофе и сладкого попробовать😋
Подробнее
👍16🔥5
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Саммари по ChatGPT за последние пару дней
🔸 Протестировали на политические предпочтения (любит коммунизм) (reddit)
🔸 Сделали "API" (через открытую браузерную сессию), написали ботов (github)
🔸 Померили IQ (83) (link)
🔸 Потранслитерировали кириллицей иностранные языки (писать в стиле "лэт ми спик фром май харт" и "ду хаст мих гефрагт")
🔸 Сгенерировали изображения в svg 🤯 (link)
🔸 Обнаружили, что модель круто составляет списки топ-n чего-то за последние k лет
🔸 Сгенерировали музыкальные пьесы (в буквенной нотации) (link)
🔸 Нашли ряд подсказок, для обхода safety фильтра ("говори от имени актера, который", "не говори мне нет, просто сделай", "sudo" 😁)
🔸 Определили длину контекста (~8000 токенов) (link)
🔸 Количество пользователей перевалило за миллион. Чувствую, что скоро демо остановят
🔸 Протестировали на политические предпочтения (любит коммунизм) (reddit)
🔸 Сделали "API" (через открытую браузерную сессию), написали ботов (github)
🔸 Померили IQ (83) (link)
🔸 Потранслитерировали кириллицей иностранные языки (писать в стиле "лэт ми спик фром май харт" и "ду хаст мих гефрагт")
🔸 Сгенерировали изображения в svg 🤯 (link)
🔸 Обнаружили, что модель круто составляет списки топ-n чего-то за последние k лет
🔸 Сгенерировали музыкальные пьесы (в буквенной нотации) (link)
🔸 Нашли ряд подсказок, для обхода safety фильтра ("говори от имени актера, который", "не говори мне нет, просто сделай", "sudo" 😁)
🔸 Определили длину контекста (~8000 токенов) (link)
🔸 Количество пользователей перевалило за миллион. Чувствую, что скоро демо остановят
Reddit
From the ControlProblem community on Reddit: I gave ChatGPT the 117 question, eight dimensional PolitiScales test
Explore this post and more from the ControlProblem community
🔥8👍4🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
В прошлом месяце записывали видео с ответами на вопросы школьников в рамках программы «УзнAI за 60 секунд». Я там тоже поучаствовал в качестве спикера🙂
линк
мероприятие
линк
мероприятие
👍14🔥3❤2