This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!
Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).
Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.
Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).
Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.
Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)
@dendi_math_ai
Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).
Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.
Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).
Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.
Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)
@dendi_math_ai
Forwarded from Сергей Марков: машинное обучение, искусство и шитпостинг
Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book
«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
⚡️Буквально несколько часов остаётся до дедлайна подачи заявок на отбор в магистратуру Сколтеха «Науки о данных».
Приведу слова Ивана Оселедца, который является директором вышеупомянутой магистратуры: «Основная фишка DS-магистратуры Сколтеха — это идея deep dive: если это исследования, то исследования с прицелом на A* конференции, если стартап — с прицелом на продукт и рост. Вы сможете поработать с лучшими научными группами в области ИИ, которые регулярно пишут топовые статьи».
На мой взгляд, это очень круто (и, самое главное, полезно)! Поэтому успейте податься, всем удачи! 🤗
Приведу слова Ивана Оселедца, который является директором вышеупомянутой магистратуры: «Основная фишка DS-магистратуры Сколтеха — это идея deep dive: если это исследования, то исследования с прицелом на A* конференции, если стартап — с прицелом на продукт и рост. Вы сможете поработать с лучшими научными группами в области ИИ, которые регулярно пишут топовые статьи».
На мой взгляд, это очень круто (и, самое главное, полезно)! Поэтому успейте податься, всем удачи! 🤗
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🥳 Мы выпустили новую линейку моделей Kandinsky 4.0 🥳
Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.
Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗
Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.
Stay tuned!
И аккуратно — во вложении есть видео со звуком :)
@dendi_math_ai
Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.
Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗
Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.
Stay tuned!
И аккуратно — во вложении есть видео со звуком :)
@dendi_math_ai
🥳 GHOST 2.0 — первая open source модель переноса головы от Sber AI 🥳
Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото на другое фото или даже видео. Однако в логике, где мы заменяем лишь область лица, есть несколько существенных ограничений — самое главное из них состоит в том, что для качественного переноса source (фото, откуда переносим лицо) и target (фото или видео, куда переносим лицо) должны быть очень похожи. Если это условие не соблюдается (а в реальности так и происходит), то это сильно влияет в негативную сторону на восприятие лица после переноса. Именно поэтому тогда мы не остановили исследования и начали смотреть в сторону создания технологии переноса головы целиком.
Сегодня рад рассказать, что мы выпустили первую open source модель переноса головы (headswap) GHOST 2.0 (и теперь GHOST как и Kandinsky стал семейством моделей! 🎉)
Архитектура GHOST 2.0 включает две составляющих:
🫥 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника (это по факту GAN, см. картинку во вложении)
🫥 Blender для органичной "вставки" головы в target (целевое) изображение с сохранением свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)
Мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении (и самые разные другие вопросы). И в итоге, как и водится, наша модель смогла превзойти по ряду метрик основные проприетарные модели в разных разрешениях, например, HeSer (см. таблички со сравнениями).
Для более глубокого погружения и использования модели GHOST 2.0 советую изучить следующие материалы:
👉 Habr (почитать научно-популярно на русском): https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page (посмотреть примеры генераций и узнать кратко про архитектуру): https://ai-forever.github.io/ghost-2.0/
👉 Technical report (почитать на английском в более научном ключе, с метриками и подробным сетапом экспериментов): https://arxiv.org/abs/2502.18417
👉 Demo (протестировать модель): https://huggingface.co/spaces/ai-forever/GHOST-2.0
👉 Github (код модели): https://github.com/ai-forever/ghost-2.0
@dendi_math_ai
Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото на другое фото или даже видео. Однако в логике, где мы заменяем лишь область лица, есть несколько существенных ограничений — самое главное из них состоит в том, что для качественного переноса source (фото, откуда переносим лицо) и target (фото или видео, куда переносим лицо) должны быть очень похожи. Если это условие не соблюдается (а в реальности так и происходит), то это сильно влияет в негативную сторону на восприятие лица после переноса. Именно поэтому тогда мы не остановили исследования и начали смотреть в сторону создания технологии переноса головы целиком.
Сегодня рад рассказать, что мы выпустили первую open source модель переноса головы (headswap) GHOST 2.0 (и теперь GHOST как и Kandinsky стал семейством моделей! 🎉)
Архитектура GHOST 2.0 включает две составляющих:
Мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении (и самые разные другие вопросы). И в итоге, как и водится, наша модель смогла превзойти по ряду метрик основные проприетарные модели в разных разрешениях, например, HeSer (см. таблички со сравнениями).
Для более глубокого погружения и использования модели GHOST 2.0 советую изучить следующие материалы:
👉 Habr (почитать научно-популярно на русском): https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page (посмотреть примеры генераций и узнать кратко про архитектуру): https://ai-forever.github.io/ghost-2.0/
👉 Technical report (почитать на английском в более научном ключе, с метриками и подробным сетапом экспериментов): https://arxiv.org/abs/2502.18417
👉 Demo (протестировать модель): https://huggingface.co/spaces/ai-forever/GHOST-2.0
👉 Github (код модели): https://github.com/ai-forever/ghost-2.0
@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Dendi Math&AI
🥳 GHOST 2.0 — первая open source модель переноса головы от Sber AI 🥳 Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото…
🤗 Кстати говоря, сегодня номинировали статью на Paper of the day на Hugging Face — буду благодарен за ваши upvote голоса (тем более осталось уже совсем немного до #1):
https://huggingface.co/papers/2502.18417
UPD: Спасибо всем большое, теперь стали #1! 💪
https://huggingface.co/papers/2502.18417
UPD: Спасибо всем большое, теперь стали #1! 💪
Forwarded from RnD CV Team
🙋♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.
⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.
🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.
📖 ArXiv: https://arxiv.org/abs/2304.13509
👩💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait
#news
⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.
🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.
#news
Please open Telegram to view this post
VIEW IN TELEGRAM