Kandinsky 3.1: искусство, созданное словами
2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, 2.2, 3.0, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, GPT-4, LLaMA, Falcon, GigaChat и др.), аудио (VALL-E, MusicLM и др.), 3D (Magic3D и др.), и даже модальности видео (Kandinsky Video, Gen-2, CogVideo и др.). В 2024 всё движется ещё более впечатляющими темпами: картинки (SD3), видео (Sora), музыка (Suno) и т. д. При этом все основные игроки стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества, а также сложными технологиями инженерии данных, позволяющими создавать огромные и в то же время очень качественные наборы данных для обучения моделей.
В ноябре прошлого года, на конференции AI Journey, наша команда также представила новое поколение text-to-image-модели Kandinsky 3.0. В целом упростив архитектуру и взяв более мощный текстовый кодировщик по сравнению с семейством моделей Kandinsky 2.x, нам удалось добиться значительного роста в качестве изображений с точки зрения реалистичности и детализации, улучшить понимание текста и побить качество модели SDXL на side-by-side-сравнении с точки зрения человеческих предпочтений, что является наиболее показательной метрикой качества в задаче генерации. Подробнее о модели Kandinsky 3.0 можно прочитать в этой статье статье. Также, на базе этой модели в том же ноябре мы выпустили первую российскую модель генерации видео по тексту Kandinsky Video, о которой можно больше узнать здесь.
Читать далее
#kandinsky_3_1 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computervision #text_to_image | @habr_ai
2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, 2.2, 3.0, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, GPT-4, LLaMA, Falcon, GigaChat и др.), аудио (VALL-E, MusicLM и др.), 3D (Magic3D и др.), и даже модальности видео (Kandinsky Video, Gen-2, CogVideo и др.). В 2024 всё движется ещё более впечатляющими темпами: картинки (SD3), видео (Sora), музыка (Suno) и т. д. При этом все основные игроки стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества, а также сложными технологиями инженерии данных, позволяющими создавать огромные и в то же время очень качественные наборы данных для обучения моделей.
В ноябре прошлого года, на конференции AI Journey, наша команда также представила новое поколение text-to-image-модели Kandinsky 3.0. В целом упростив архитектуру и взяв более мощный текстовый кодировщик по сравнению с семейством моделей Kandinsky 2.x, нам удалось добиться значительного роста в качестве изображений с точки зрения реалистичности и детализации, улучшить понимание текста и побить качество модели SDXL на side-by-side-сравнении с точки зрения человеческих предпочтений, что является наиболее показательной метрикой качества в задаче генерации. Подробнее о модели Kandinsky 3.0 можно прочитать в этой статье статье. Также, на базе этой модели в том же ноябре мы выпустили первую российскую модель генерации видео по тексту Kandinsky Video, о которой можно больше узнать здесь.
Читать далее
#kandinsky_3_1 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computervision #text_to_image | @habr_ai
Хабр
Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту
Прошёл ровно год с момента релиза модели Kandinsky 2.1 — именно эта модель принесла известность нашей исследовательской группе Sber AI Research и дала толчок развитию всей линейки моделей Kandinsky. В...
Kandinsky Video 1.1: обновленная модель генерации видео
В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video, основанную на модели генерации изображений Kandinsky 3.0, по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу.
Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.
Читать далее
#генерация_видео #kandinsky_video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #text_to_image #computer_vision | @habr_ai
В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video, основанную на модели генерации изображений Kandinsky 3.0, по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу.
Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.
Читать далее
#генерация_видео #kandinsky_video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #text_to_image #computer_vision | @habr_ai
Хабр
Kandinsky Video 1.1: обновленная модель генерации видео
Kandinsky Video 1.1 - Лодка покачивается на волнах, пляж, романтика, фотореализм, закатное солнце, широкий формат Введение В ноябре прошлого года наша команда представила свою первую разработку в...
Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)
В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.
Читать далее
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #text_to_image #computer_vision #multimodality #generative_models | @habr_ai
В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.
Читать далее
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #text_to_image #computer_vision #multimodality #generative_models | @habr_ai
Хабр
Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)
Данная публикация о задаче text2video основана на моей недавней дипломной работе в магистратуре МФТИ и это моя первая статья. Первоначально тема моей магистерской работы формулировалась как —...
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)
В первой части, я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image.
Во второй части двигаемся к решению задачи на основе машинного обучения через:
- формализацию функции потерь;
- построение базовой модели Splitter, по сути, обучаемой матрицы вращений;
- построение алгоритма обучения на векторизованном датасете из 200-500 роликов.
И посмотрим первые результаты.
Читать далее
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #text_to_image #computer_vision #multimodality #generative_models | @habr_ai
В первой части, я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image.
Во второй части двигаемся к решению задачи на основе машинного обучения через:
- формализацию функции потерь;
- построение базовой модели Splitter, по сути, обучаемой матрицы вращений;
- построение алгоритма обучения на векторизованном датасете из 200-500 роликов.
И посмотрим первые результаты.
Читать далее
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #text_to_image #computer_vision #multimodality #generative_models | @habr_ai
Хабр
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)
В первой части , я познакомил вас c подходом для генерации видео, который основан на матрицах вращений. К нему меня привела интуиция, а затем я начал работать на формализацией идеи, после первичного...
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)
В первой части, был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.
Читать далее
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #text_to_image #computer_vision #multimodality #generative_models | @habr_ai
В первой части, был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.
Читать далее
#rotation_matrix #матрица_вращения #генерация_изображений #генерация_видео #kandinsky_video #kandinsky #text_to_image #computer_vision #multimodality #generative_models | @habr_ai
Хабр
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)
В первой части , был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны...
Создаем анимированные стикеры для Telegram за один вечер с помощью ИИ. Пошаговое руководство
Привет всем, кто, как и я, проводит значительную часть своего дня в Telegram! Для одних Telegram – инструмент работы с командой и клиентами, для других – источник ценных знаний благодаря экспертным каналам, а для третьих – способ выразить свои эмоции через забавные стикеры.
Сегодня я расскажу вам о том, как всего за один вечер, без навыков рисования и видео монтажа, вы сможете создать собственный набор стикеров, используя возможности ИИ. Всё максимально доступно и понятно даже новичкам. Готовы начать? Тогда вперёд!
Хочу свои стикеры
#искусственный_интеллект #telegram #stickers #sticker_creator #text_to_image #image_to_video #цифровой_арт | @habr_ai
Привет всем, кто, как и я, проводит значительную часть своего дня в Telegram! Для одних Telegram – инструмент работы с командой и клиентами, для других – источник ценных знаний благодаря экспертным каналам, а для третьих – способ выразить свои эмоции через забавные стикеры.
Сегодня я расскажу вам о том, как всего за один вечер, без навыков рисования и видео монтажа, вы сможете создать собственный набор стикеров, используя возможности ИИ. Всё максимально доступно и понятно даже новичкам. Готовы начать? Тогда вперёд!
Хочу свои стикеры
#искусственный_интеллект #telegram #stickers #sticker_creator #text_to_image #image_to_video #цифровой_арт | @habr_ai
Хабр
Создаем анимированные стикеры для Telegram за один вечер с помощью ИИ. Пошаговое руководство
Привет всем, кто, как и я, проводит значительную часть своего дня в Telegram! Для одних Telegram – инструмент работы с командой и клиентами, для других – источник ценных знаний благодаря экспертным...
Janus Pro от DeepSeek: стоит ли она внимания? Сравнение генерации и объяснений с Dalle-3 и SD3
Появились первые тесты новой нейросети Janus — эта модель не только генерирует изображения, но и анализирует их, объясняя детали и делая осмысленные комментарии.
В этой статье мы разберёмся, как Janus Pro (7B) справляется с генерацией изображений по сравнению с Stable Diffusion 3 (Medium) и Dall-3, а также кто лучше анализирует и комментирует изображения — Janus Pro или Dalle-3.
Ну что, готовы? Тогда погнали!
Читать далее
#ai #ии #janus #deepseek #генерация_изображений #анализ_изображений #text_to_image #image_to_text | @habr_ai
Появились первые тесты новой нейросети Janus — эта модель не только генерирует изображения, но и анализирует их, объясняя детали и делая осмысленные комментарии.
В этой статье мы разберёмся, как Janus Pro (7B) справляется с генерацией изображений по сравнению с Stable Diffusion 3 (Medium) и Dall-3, а также кто лучше анализирует и комментирует изображения — Janus Pro или Dalle-3.
Ну что, готовы? Тогда погнали!
Читать далее
#ai #ии #janus #deepseek #генерация_изображений #анализ_изображений #text_to_image #image_to_text | @habr_ai
Хабр
Janus Pro: сравнение генераций и image-to-text с Stable Diffusion, Dalle и ChatGPT
Появились первые тесты новой модели Janus Pro — она не только генерирует изображения, но и распознаёт их в режиме image-to-text, описывая детали в виде осмысленных комментариев. Давайте...
Запускаем FLUX 1 Dev в Google Colab
Ранее я уже делал статью про запуск в пару кликов моделей Stable Diffusion в Google Colab с помощью Fooocus (способ актуальный), сегодня мы проделаем похожее с моделью FLUX 1 Dev, но без web интерфейса. Читать далее
#flux #google_colab #ai #black_forest_labs #text_to_image | @habr_ai
Ранее я уже делал статью про запуск в пару кликов моделей Stable Diffusion в Google Colab с помощью Fooocus (способ актуальный), сегодня мы проделаем похожее с моделью FLUX 1 Dev, но без web интерфейса. Читать далее
#flux #google_colab #ai #black_forest_labs #text_to_image | @habr_ai
Хабр
Запускаем FLUX 1 Dev в Google Colab
Ранее я уже делал статью про запуск в пару кликов моделей Stable Diffusion в Google Colab с помощью Fooocus (способ актуальный), сегодня мы проделаем похожее с моделью FLUX 1 Dev, но без web...
Black Forest Labs выпустили FLUX.1 Kontext — контекстный редактор изображений
Здравствуйте! Меня зовут Богдан, я являюсь автором телеграм канала Друг Опенсурса, приятного прочтения.
Black Forest Labs официально выпустили FLUX.1 Kontext - целую линейку генеративных моделей, заточенных под генерацию и редактирование картинок. В отличие от обычных text-to-image моделей, эта модель может работать с контекстом - то есть берет на вход и текст, и изображения, а затем создает новые рендеры с сохранением всех визуальных концепций. Читать далее
#flux_1_kontext #black_forest_labs #генерация_изображений #редактирование_изображений #контекстное_редактирование #text_to_image #искусственный_интеллект #нейросети #диффузионные_модели #машинное_обучение | @habr_ai
Здравствуйте! Меня зовут Богдан, я являюсь автором телеграм канала Друг Опенсурса, приятного прочтения.
Black Forest Labs официально выпустили FLUX.1 Kontext - целую линейку генеративных моделей, заточенных под генерацию и редактирование картинок. В отличие от обычных text-to-image моделей, эта модель может работать с контекстом - то есть берет на вход и текст, и изображения, а затем создает новые рендеры с сохранением всех визуальных концепций. Читать далее
#flux_1_kontext #black_forest_labs #генерация_изображений #редактирование_изображений #контекстное_редактирование #text_to_image #искусственный_интеллект #нейросети #диффузионные_модели #машинное_обучение | @habr_ai
Kandinsky 4.1 Image – новый генератор изображений от Сбера
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image! Читать далее
#генерация_изображений #kandinsky_4 #sberai #generative_models #text_to_image #computer_vision #diffusion #sft #artificial_intelligence #machine_learning | @habr_ai
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image! Читать далее
#генерация_изображений #kandinsky_4 #sberai #generative_models #text_to_image #computer_vision #diffusion #sft #artificial_intelligence #machine_learning | @habr_ai
Хабр
Kandinsky 4.1 Image – новый генератор изображений от Сбера
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video ( статья на habr ). Теперь мы рады представить новую версию нашей...