Complete AI

Вчера выступал на российско-китайской Открытой конференции NAUKA 0+ МГУ в г. Шеньчжень, Китай с пленарным докладом о мультимодальных архитектурах и исследованиях, которыми мы активно занимается в рамках научной группы FusionBrain.

Это мой первый опыт рабочей поездки в Азию и вот, чем хочется поделиться с вами:
1) китайцы очень по-хорошему любопытный и заинтересованный народ, жадный до новых идей и знаний, стараются донести мысль как угодно, даже с помощью электронного переводчика и жестов
2) г. Шеньчжень всего 40 лет, но выглядит он очень большим и активно застраиваются огромные многоэтажные кварталы
3) вокруг очень чисто, огромное количество парков, тёплом море, низкие цены на многие товары
4) по части блюд визуально невозможно определить, что там может быть в составе🤔
5) конференция проходит в МГУ-ППИ в Шеньчжене, который является мини-копией Московского (вики)
6) Курорты на Южно-Китайском море (Dameisha Resort!!!) - отличная альтернатива Таиланду🏖️
7) К сожалению нет возможности попасть в Гонконг по однократной академической китайской визе. После пересечения границы - обратной дороги не будет:(
8) Наличие знания английского языка никак здесь вам не поможет, так же как и наличие любой валюты кроме юаней и карт UnionPay (карту сделал в РФ в одном из банков). Идеально иметь WeChat или Alipay, но туда не так просто попасть
9) Большинство автомобилей - электромобили, поэтому порой идя по оживленной улице ты преимущественно можешь слышать сигналы клаксона, речь людей и все остальные звуки, кроме двигателей🚎
10) В номерах очень любят делать стеклянные прозрачные перегородки между комнатой и ванной🛀

На следующей неделе буду в Гуанчжоу пару дней - посмотрим, чем меня удивит Китай там🇨🇳

🔥89👍32💯3👎2👏2

4.28K viewsAndrey Kuznetsov, 06:16

Complete AI

Выложили сегодня статью на архив по исследованиям анизотропии intrinsic dimensions в трансформерах. Очень интересные результаты получились в части компактности представлений эмбеддингов на внутренних слоях.

Вышел даже обзор статьи на YouTube

YouTube

The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models

This study investigates the anisotropy dynamics and intrinsic dimension of embeddings in transformer architectures, revealing distinct patterns in encoders and decoders. Initial training expands dimensionality, while later training refines into more compact…

❤‍🔥17💯8🎉5

2.55K viewsAndrey Kuznetsov, edited 18:11

Complete AI

Forwarded from AbstractDL

The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models

Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.

Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.

Статья

1❤‍🔥19🔥8🎉5

2.36K viewsAndrey Kuznetsov, 18:11

Complete AI

Как всё сложно…

https://www.theverge.com/2023/11/18/23967199/breaking-openai-board-in-discussions-with-sam-altman-to-return-as-ceo

The Verge

OpenAI board in discussions with Sam Altman to return as CEO

Altman is “ambivalent” and wants governance changes.

🙏9⚡4❤‍🔥2

3.18K viewsAndrey Kuznetsov, 23:17

Complete AI

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

🎥It's time for a night teaser

@complete_ai

🔥33👍5👏3💯2

2.76K viewsAndrey Kuznetsov, 20:28

Complete AI

Дорогу Kandinsky Video 🎬

🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас!

Внутри наша модель состоит из двух этапов, которые отвечают за две важные задачи синтеза: генерация ключевых кадров (для управления сюжетной линией видео) и генерация дополнительных кадров (для плавности движений).

А теперь чуть-чуть подробнее:

📌 в качестве генератора кадров используется модель Kandinsky 3.0
📌разрешение генераций 512 пикселей
📌генерировать можно с различным соотношением сторон
📌можно выбрать частоту кадров для плановности
📌генерация занимает от 1 до 3 минут (зависит от степени плавности, которой вы хотите добиться при синтезе)

Ссылки на проект:
FusionBrain.ai
Telegram bot
сайт проекта
rudalle.ru
GitHub

Почитать подробнее про Kandinsky Video можно в новой статье на Хабре.

По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи🤝

UPD: опубликовали статью на arXiv по результатам исследований

@complete_ai

fusionbrain.ai

Fusion Brain — платформа для генерации изображений с помощью нейросети Кандинский

Создавай, редактируй и стилизуй изображения вместе с нейросетью. Преврати идеи в образы за секунды с помощью Кандинский. Kandinsky. Начать творить. Бесплатно, прямо из браузера, с любых устройств. Искусственный интеллект. Fusion Brain

🔥67❤‍🔥17🏆10👍4👎3👏2❤1

14.8K viewsAndrey Kuznetsov, edited 10:07

Complete AI

💪День релизов не закончился, поэтому хочу порадовать вас ещё одной новостью!

🚀Выходим за границы текста

С удовольствием анонсирую новую мультимодальную мультизадачную модель OmniFusion. Работает одинаково хорошо как с текстом, так и с изображениями. Она понимает, анализирует, отвечает на вопросы и продолжает диалог.

🦾 Точно определяет объекты на картинке
🦾 Детектирует расположение и цвета
🦾 Считает объекты
🦾 Работает на английском и русском языках
🦾 Умеет рассуждать и решать сложные задачи даже в специфических доменах, в том числе IQ тесты

В OmniFusion мы использовали очень интересный способ объединения разных модальностей без обучения «с нуля». Правильным образом построили адаптеры над энкодерами, исследовали различные механики обучения и дообучили предобученную LLM, лежащую в основе, понимать изображения.

👀 Обучали на основе модели с 7В параметров, а по качеству почти добрались до LLaVA с 13В в основе.

Узнать больше об архитектуре можно на Хабре , а пока ловите примеры работы.

@complete_ai

❤‍🔥44🏆20🔥11⚡4👍1

4.58K viewsAndrey Kuznetsov, 16:53

Complete AI

Complete AI pinned «Дорогу Kandinsky Video 🎬 🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас! Внутри наша модель состоит из двух этапов, которые…»

16:59

Complete AI

Forwarded from Институт AIRI

Представляем новую мультимодальную мультизадачную модель OmniFusion, которую мы сделали совместно с исследователями из Sber AI и SberDevices

✨

Модель способна анализировать, описывать и отвечать на вопросы по изображениям, поддерживая непрерывный диалог с пользователем. Анализируя предоставленные пользователем изображения, OmniFusion точно распознаёт расположенные на них объекты, их количество, цвет и положение в пространстве.

OmniFusion может не просто описать картинку, но и ответить на сопутствующие вопросы, а также использовать извлечённую информацию в ходе диалога с человеком. Например, она может распознать сфотографированное блюдо и предложить рецепты его приготовления, найти ответ на логическую задачу или объяснить шутку.

Больше интересного про архитектуру:

→ Новый пост на Хабр про то, как устроена модель OmniFusion
→ Рассказ про модель от Андрея Кузнецова, а также доклад Ивана Оселедца на AI Journey 2023

Please open Telegram to view this post

VIEW IN TELEGRAM

👍34🔥16🏆5❤‍🔥1

2.75K viewsAndrey Kuznetsov, 16:26

Complete AI

🔥В списке DailyPapers на Hugging Face снова наша статья про модель синтеза видео Kandinsky Video, релиз которой состоялся на днях)

https://huggingface.co/papers/2311.13073

Поддержите лайками на Hugging Face - выйдем снова в Топ-1💪

UPD: Благодаря вам, уже Топ-2🙏🙏🙏

@complete_ai

huggingface.co

Paper page - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline

Join the discussion on this paper page

👍44🔥24❤‍🔥7🎉2

2.93K viewsAndrey Kuznetsov, edited 06:37

Complete AI

Forwarded from AbstractDL

Гугл представил Gemini — семейство мультимодальных моделей

Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷‍♂️

Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.

P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.

Статья, блог

👍19🔥7⚡4🎉2

2.26K viewsAndrey Kuznetsov, 15:52

Complete AI

AbstractDL

Гугл представил Gemini — семейство мультимодальных моделей Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить…

Наша модель OmniFusion на базе Mistral 7B справляется не хуже новой Gemini💪

👏35🔥15🏆7👍3👎2❤‍🔥1

2.46K viewsAndrey Kuznetsov, 19:30

Complete AI

✈️До конца недели я на EMNLP-2023. В этом году конференция в Сингапуре, у нас здесь будет демо стенд по Kandinsky.

Буду выкладывать интересные инсайты с конференции🇸🇬

P.S. Помню, что ещё обещал рассказать про Гуанчжоу, ну и дорога из Москвы до Сингапура тоже заслуживает отдельного внимания - всё будет😉

Если кто-то из моих подписчиков тоже здесь, буду рад пересечься!

@complete_ai

👍50🔥20🏆7❤‍🔥2👎1

2.22K viewsAndrey Kuznetsov, 11:53

About

Blog

Apps

Platform