Dendi Math&AI
2.68K subscribers
25 photos
22 videos
18 links
Канал Дениса Димитрова о математике и искусственном интеллекте. В основном разные интересные и актуальные новости и мысли.

Руковожу командой Sber AI Research и проектом Kandinsky
Download Telegram
Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!

Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).

Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.

Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).

Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.

Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)

@dendi_math_ai
Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book

«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
⚡️Буквально несколько часов остаётся до дедлайна подачи заявок на отбор в магистратуру Сколтеха «Науки о данных».

Приведу слова Ивана Оселедца, который является директором вышеупомянутой магистратуры: «Основная фишка DS-магистратуры Сколтеха — это идея deep dive: если это исследования, то исследования с прицелом на A* конференции, если стартап — с прицелом на продукт и рост. Вы сможете поработать с лучшими научными группами в области ИИ, которые регулярно пишут топовые статьи».

На мой взгляд, это очень круто (и, самое главное, полезно)! Поэтому успейте податься, всем удачи! 🤗
🥳 Мы выпустили новую линейку моделей Kandinsky 4.0 🥳

Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.

Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗

Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.

Stay tuned!

И аккуратно — во вложении есть видео со звуком :)

@dendi_math_ai
Поздравляю всех с Новым годом! 🎄🎉

Год был непростой, но очень продуктивный: получилось представить несколько новых версий Kandinsky, поучаствовать в топовых конференциях и написать ряд статей! 💪

Об этом планирую подробно рассказать в ближайшее время
🥳 GHOST 2.0 — первая open source модель переноса головы от Sber AI 🥳

Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото на другое фото или даже видео. Однако в логике, где мы заменяем лишь область лица, есть несколько существенных ограничений — самое главное из них состоит в том, что для качественного переноса source (фото, откуда переносим лицо) и target (фото или видео, куда переносим лицо) должны быть очень похожи. Если это условие не соблюдается (а в реальности так и происходит), то это сильно влияет в негативную сторону на восприятие лица после переноса. Именно поэтому тогда мы не остановили исследования и начали смотреть в сторону создания технологии переноса головы целиком.

Сегодня рад рассказать, что мы выпустили первую open source модель переноса головы (headswap) GHOST 2.0 (и теперь GHOST как и Kandinsky стал семейством моделей! 🎉)

Архитектура GHOST 2.0 включает две составляющих:
🫥 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника (это по факту GAN, см. картинку во вложении)
🫥 Blender для органичной "вставки" головы в target (целевое) изображение с сохранением свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)

Мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении (и самые разные другие вопросы). И в итоге, как и водится, наша модель смогла превзойти по ряду метрик основные проприетарные модели в разных разрешениях, например, HeSer (см. таблички со сравнениями).

Для более глубокого погружения и использования модели GHOST 2.0 советую изучить следующие материалы:
👉 Habr (почитать научно-популярно на русском): https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page (посмотреть примеры генераций и узнать кратко про архитектуру): https://ai-forever.github.io/ghost-2.0/
👉 Technical report (почитать на английском в более научном ключе, с метриками и подробным сетапом экспериментов): https://arxiv.org/abs/2502.18417
👉 Demo (протестировать модель): https://huggingface.co/spaces/ai-forever/GHOST-2.0
👉 Github (код модели): https://github.com/ai-forever/ghost-2.0

@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Dendi Math&AI
🥳 GHOST 2.0 — первая open source модель переноса головы от Sber AI 🥳 Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото…
🤗 Кстати говоря, сегодня номинировали статью на Paper of the day на Hugging Face — буду благодарен за ваши upvote голоса (тем более осталось уже совсем немного до #1):
https://huggingface.co/papers/2502.18417

UPD: Спасибо всем большое, теперь стали #1!
💪
Forwarded from RnD CV Team
🙋‍♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.

⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.

🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.

📖 ArXiv: https://arxiv.org/abs/2304.13509
👩‍💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait

#news
Please open Telegram to view this post
VIEW IN TELEGRAM