Complete AI
7.97K subscribers
490 photos
33 videos
10 files
267 links
Меня зовут Андрей Кузнецов

Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML

Tg: @kuznetsoff87
Linkedin: https://tinyurl.com/y96nmmdd
Download Telegram
Дорогу Kandinsky Video 🎬

🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас!

Внутри наша модель состоит из двух этапов, которые отвечают за две важные задачи синтеза: генерация ключевых кадров (для управления сюжетной линией видео) и генерация дополнительных кадров (для плавности движений).

А теперь чуть-чуть подробнее:

📌 в качестве генератора кадров используется модель Kandinsky 3.0
📌разрешение генераций 512 пикселей
📌генерировать можно с различным соотношением сторон
📌можно выбрать частоту кадров для плановности
📌генерация занимает от 1 до 3 минут (зависит от степени плавности, которой вы хотите добиться при синтезе)

Ссылки на проект:
FusionBrain.ai
Telegram bot
сайт проекта
rudalle.ru
GitHub

Почитать подробнее про Kandinsky Video можно в новой статье на Хабре.

По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи🤝

UPD: опубликовали статью на arXiv по результатам исследований

@complete_ai
🔥67❤‍🔥17🏆10👍4👎3👏21
💪День релизов не закончился, поэтому хочу порадовать вас ещё одной новостью!

🚀Выходим за границы текста

С удовольствием анонсирую новую мультимодальную мультизадачную модель OmniFusion. Работает одинаково хорошо как с текстом, так и с изображениями. Она понимает, анализирует, отвечает на вопросы и продолжает диалог.

🦾 Точно определяет объекты на картинке
🦾 Детектирует расположение и цвета
🦾 Считает объекты
🦾 Работает на английском и русском языках
🦾 Умеет рассуждать и решать сложные задачи даже в специфических доменах, в том числе IQ тесты

В OmniFusion мы использовали очень интересный способ объединения разных модальностей без обучения «с нуля». Правильным образом построили адаптеры над энкодерами, исследовали различные механики обучения и дообучили предобученную LLM, лежащую в основе, понимать изображения.

👀 Обучали на основе модели с 7В параметров, а по качеству почти добрались до LLaVA с 13В в основе.

Узнать больше об архитектуре можно на Хабре, а пока ловите примеры работы.

@complete_ai
❤‍🔥44🏆20🔥114👍1
Complete AI pinned «Дорогу Kandinsky Video 🎬 🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас! Внутри наша модель состоит из двух этапов, которые…»
Forwarded from Институт AIRI
Представляем новую мультимодальную мультизадачную модель OmniFusion, которую мы сделали совместно с исследователями из Sber AI и SberDevices

Модель способна анализировать, описывать и отвечать на вопросы по изображениям, поддерживая непрерывный диалог с пользователем. Анализируя предоставленные пользователем изображения, OmniFusion точно распознаёт расположенные на них объекты, их количество, цвет и положение в пространстве.

OmniFusion может не просто описать картинку, но и ответить на сопутствующие вопросы, а также использовать извлечённую информацию в ходе диалога с человеком. Например, она может распознать сфотографированное блюдо и предложить рецепты его приготовления, найти ответ на логическую задачу или объяснить шутку.

Больше интересного про архитектуру:

→ Новый пост на Хабр про то, как устроена модель OmniFusion
Рассказ про модель от Андрея Кузнецова, а также доклад Ивана Оселедца на AI Journey 2023
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥16🏆5❤‍🔥1
🔥В списке DailyPapers на Hugging Face снова наша статья про модель синтеза видео Kandinsky Video, релиз которой состоялся на днях)

https://huggingface.co/papers/2311.13073

Поддержите лайками на Hugging Face - выйдем снова в Топ-1💪

UPD: Благодаря вам, уже Топ-2🙏🙏🙏

@complete_ai
👍44🔥24❤‍🔥7🎉2
Forwarded from AbstractDL
Гугл представил Gemini — семейство мультимодальных моделей

Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷‍♂️

Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.

P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.

Статья, блог
👍19🔥74🎉2
✈️До конца недели я на EMNLP-2023. В этом году конференция в Сингапуре, у нас здесь будет демо стенд по Kandinsky.

Буду выкладывать интересные инсайты с конференции🇸🇬

P.S. Помню, что ещё обещал рассказать про Гуанчжоу, ну и дорога из Москвы до Сингапура тоже заслуживает отдельного внимания - всё будет😉

Если кто-то из моих подписчиков тоже здесь, буду рад пересечься!

@complete_ai
👍50🔥20🏆7❤‍🔥2👎1
Complete AI
Вчера выступал на российско-китайской Открытой конференции NAUKA 0+ МГУ в г. Шеньчжень, Китай с пленарным докладом о мультимодальных архитектурах и исследованиях, которыми мы активно занимается в рамках научной группы FusionBrain. Это мой первый опыт рабочей…
С некоторым запозданием возвращаюсь к рассказу о поездке в Гуанчжоу. Добирался туда на скоростном поезде из Шеньчженя, поэтому путь в 140 км занял около 30 минут.

По приезде первая задача была найти такси и тут всё очень интересно: есть официальные такси, есть «бомбилы», которые дерут деньги и которых гоняют полицейские очень сурово. А в обычное такси ты должен просто отстоять в живой очереди из пассажиров - эдакий матчинг двух бесконечных очередей: люди и машины.

Заселился в 4 seasons по промо стоимости, и это было лучшее место, в котором я бывал в командировках. Чтобы повысить КПД от поездки, по приезде сразу пошли изучать достопримечательности.

Отправились в Canton Tower - телебашня высотой 604 м, в которой много разных точек обзора. Мы там взяли полный билет и прошли все доступные уровни для наблюдения) А на верхушке установлен самый высокий аттракцион для свободного падения.🎢

📋Из особенностей - передвигаться пешком практически невозможно, везде очень много скутеров, которые едут по тротуарам наравне со всеми) Ощущения безопасности нет от слова совсем. С англ языком такие же проблемы - почти никто его не понимает. В остальном - гигантский суперсовременный и красивый город!

Подводя итог: новые впечатления от еще одного города Китая. Рекомендую всем, кто планирует побывать в этой стране, заехать в этот город. Фото по написанному прилагаю😉 На этом путь по Китаю в этом году завершён) Далее - Сингапур🇸🇬
❤‍🔥19🔥14👏4