Вчера выступал на российско-китайской Открытой конференции NAUKA 0+ МГУ в г. Шеньчжень, Китай с пленарным докладом о мультимодальных архитектурах и исследованиях, которыми мы активно занимается в рамках научной группы FusionBrain.
Это мой первый опыт рабочей поездки в Азию и вот, чем хочется поделиться с вами:
1) китайцы очень по-хорошему любопытный и заинтересованный народ, жадный до новых идей и знаний, стараются донести мысль как угодно, даже с помощью электронного переводчика и жестов
2) г. Шеньчжень всего 40 лет, но выглядит он очень большим и активно застраиваются огромные многоэтажные кварталы
3) вокруг очень чисто, огромное количество парков, тёплом море, низкие цены на многие товары
4) по части блюд визуально невозможно определить, что там может быть в составе🤔
5) конференция проходит в МГУ-ППИ в Шеньчжене, который является мини-копией Московского (вики)
6) Курорты на Южно-Китайском море (Dameisha Resort!!!) - отличная альтернатива Таиланду🏖️
7) К сожалению нет возможности попасть в Гонконг по однократной академической китайской визе. После пересечения границы - обратной дороги не будет:(
8) Наличие знания английского языка никак здесь вам не поможет, так же как и наличие любой валюты кроме юаней и карт UnionPay (карту сделал в РФ в одном из банков). Идеально иметь WeChat или Alipay, но туда не так просто попасть
9) Большинство автомобилей - электромобили, поэтому порой идя по оживленной улице ты преимущественно можешь слышать сигналы клаксона, речь людей и все остальные звуки, кроме двигателей🚎
10) В номерах очень любят делать стеклянные прозрачные перегородки между комнатой и ванной🛀
На следующей неделе буду в Гуанчжоу пару дней - посмотрим, чем меня удивит Китай там🇨🇳
Это мой первый опыт рабочей поездки в Азию и вот, чем хочется поделиться с вами:
1) китайцы очень по-хорошему любопытный и заинтересованный народ, жадный до новых идей и знаний, стараются донести мысль как угодно, даже с помощью электронного переводчика и жестов
2) г. Шеньчжень всего 40 лет, но выглядит он очень большим и активно застраиваются огромные многоэтажные кварталы
3) вокруг очень чисто, огромное количество парков, тёплом море, низкие цены на многие товары
4) по части блюд визуально невозможно определить, что там может быть в составе🤔
5) конференция проходит в МГУ-ППИ в Шеньчжене, который является мини-копией Московского (вики)
6) Курорты на Южно-Китайском море (Dameisha Resort!!!) - отличная альтернатива Таиланду🏖️
7) К сожалению нет возможности попасть в Гонконг по однократной академической китайской визе. После пересечения границы - обратной дороги не будет:(
8) Наличие знания английского языка никак здесь вам не поможет, так же как и наличие любой валюты кроме юаней и карт UnionPay (карту сделал в РФ в одном из банков). Идеально иметь WeChat или Alipay, но туда не так просто попасть
9) Большинство автомобилей - электромобили, поэтому порой идя по оживленной улице ты преимущественно можешь слышать сигналы клаксона, речь людей и все остальные звуки, кроме двигателей🚎
10) В номерах очень любят делать стеклянные прозрачные перегородки между комнатой и ванной🛀
На следующей неделе буду в Гуанчжоу пару дней - посмотрим, чем меня удивит Китай там🇨🇳
🔥89👍32💯3👎2👏2
Выложили сегодня статью на архив по исследованиям анизотропии intrinsic dimensions в трансформерах. Очень интересные результаты получились в части компактности представлений эмбеддингов на внутренних слоях.
Вышел даже обзор статьи на YouTube
Вышел даже обзор статьи на YouTube
YouTube
The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models
This study investigates the anisotropy dynamics and intrinsic dimension of embeddings in transformer architectures, revealing distinct patterns in encoders and decoders. Initial training expands dimensionality, while later training refines into more compact…
❤🔥17💯8🎉5
Forwarded from AbstractDL
The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models
Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.
Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.
Статья
Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.
Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.
Статья
1❤🔥19🔥8🎉5
🔥33👍5👏3💯2
Дорогу Kandinsky Video 🎬
🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас!
Внутри наша модель состоит из двух этапов, которые отвечают за две важные задачи синтеза: генерация ключевых кадров (для управления сюжетной линией видео) и генерация дополнительных кадров (для плавности движений).
А теперь чуть-чуть подробнее:
📌 в качестве генератора кадров используется модель Kandinsky 3.0
📌разрешение генераций 512 пикселей
📌генерировать можно с различным соотношением сторон
📌можно выбрать частоту кадров для плановности
📌генерация занимает от 1 до 3 минут (зависит от степени плавности, которой вы хотите добиться при синтезе)
Ссылки на проект:
FusionBrain.ai
Telegram bot
сайт проекта
rudalle.ru
GitHub
Почитать подробнее про Kandinsky Video можно в новой статье на Хабре.
По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи🤝
UPD: опубликовали статью на arXiv по результатам исследований
@complete_ai
🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас!
Внутри наша модель состоит из двух этапов, которые отвечают за две важные задачи синтеза: генерация ключевых кадров (для управления сюжетной линией видео) и генерация дополнительных кадров (для плавности движений).
А теперь чуть-чуть подробнее:
📌 в качестве генератора кадров используется модель Kandinsky 3.0
📌разрешение генераций 512 пикселей
📌генерировать можно с различным соотношением сторон
📌можно выбрать частоту кадров для плановности
📌генерация занимает от 1 до 3 минут (зависит от степени плавности, которой вы хотите добиться при синтезе)
Ссылки на проект:
FusionBrain.ai
Telegram bot
сайт проекта
rudalle.ru
GitHub
Почитать подробнее про Kandinsky Video можно в новой статье на Хабре.
По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи🤝
UPD: опубликовали статью на arXiv по результатам исследований
@complete_ai
fusionbrain.ai
Fusion Brain — платформа для генерации изображений с помощью нейросети Кандинский
Создавай, редактируй и стилизуй изображения вместе с нейросетью. Преврати идеи в образы за секунды с помощью Кандинский. Kandinsky. Начать творить. Бесплатно, прямо из браузера, с любых устройств. Искусственный интеллект. Fusion Brain
🔥67❤🔥17🏆10👍4👎3👏2❤1
💪День релизов не закончился, поэтому хочу порадовать вас ещё одной новостью!
🚀Выходим за границы текста
С удовольствием анонсирую новую мультимодальную мультизадачную модель OmniFusion. Работает одинаково хорошо как с текстом, так и с изображениями. Она понимает, анализирует, отвечает на вопросы и продолжает диалог.
🦾 Точно определяет объекты на картинке
🦾 Детектирует расположение и цвета
🦾 Считает объекты
🦾 Работает на английском и русском языках
🦾 Умеет рассуждать и решать сложные задачи даже в специфических доменах, в том числе IQ тесты
В OmniFusion мы использовали очень интересный способ объединения разных модальностей без обучения «с нуля». Правильным образом построили адаптеры над энкодерами, исследовали различные механики обучения и дообучили предобученную LLM, лежащую в основе, понимать изображения.
👀 Обучали на основе модели с 7В параметров, а по качеству почти добрались до LLaVA с 13В в основе.
Узнать больше об архитектуре можно на Хабре, а пока ловите примеры работы.
@complete_ai
🚀Выходим за границы текста
С удовольствием анонсирую новую мультимодальную мультизадачную модель OmniFusion. Работает одинаково хорошо как с текстом, так и с изображениями. Она понимает, анализирует, отвечает на вопросы и продолжает диалог.
🦾 Точно определяет объекты на картинке
🦾 Детектирует расположение и цвета
🦾 Считает объекты
🦾 Работает на английском и русском языках
🦾 Умеет рассуждать и решать сложные задачи даже в специфических доменах, в том числе IQ тесты
В OmniFusion мы использовали очень интересный способ объединения разных модальностей без обучения «с нуля». Правильным образом построили адаптеры над энкодерами, исследовали различные механики обучения и дообучили предобученную LLM, лежащую в основе, понимать изображения.
👀 Обучали на основе модели с 7В параметров, а по качеству почти добрались до LLaVA с 13В в основе.
Узнать больше об архитектуре можно на Хабре, а пока ловите примеры работы.
@complete_ai
❤🔥44🏆20🔥11⚡4👍1
Complete AI pinned «Дорогу Kandinsky Video 🎬 🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас! Внутри наша модель состоит из двух этапов, которые…»
Forwarded from Институт AIRI
Представляем новую мультимодальную мультизадачную модель OmniFusion, которую мы сделали совместно с исследователями из Sber AI и SberDevices ✨
Модель способна анализировать, описывать и отвечать на вопросы по изображениям, поддерживая непрерывный диалог с пользователем. Анализируя предоставленные пользователем изображения, OmniFusion точно распознаёт расположенные на них объекты, их количество, цвет и положение в пространстве.
OmniFusion может не просто описать картинку, но и ответить на сопутствующие вопросы, а также использовать извлечённую информацию в ходе диалога с человеком. Например, она может распознать сфотографированное блюдо и предложить рецепты его приготовления, найти ответ на логическую задачу или объяснить шутку.
Больше интересного про архитектуру:
→ Новый пост на Хабр про то, как устроена модель OmniFusion
→ Рассказ про модель от Андрея Кузнецова, а также доклад Ивана Оселедца на AI Journey 2023
Модель способна анализировать, описывать и отвечать на вопросы по изображениям, поддерживая непрерывный диалог с пользователем. Анализируя предоставленные пользователем изображения, OmniFusion точно распознаёт расположенные на них объекты, их количество, цвет и положение в пространстве.
OmniFusion может не просто описать картинку, но и ответить на сопутствующие вопросы, а также использовать извлечённую информацию в ходе диалога с человеком. Например, она может распознать сфотографированное блюдо и предложить рецепты его приготовления, найти ответ на логическую задачу или объяснить шутку.
Больше интересного про архитектуру:
→ Новый пост на Хабр про то, как устроена модель OmniFusion
→ Рассказ про модель от Андрея Кузнецова, а также доклад Ивана Оселедца на AI Journey 2023
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥16🏆5❤🔥1
🔥В списке DailyPapers на Hugging Face снова наша статья про модель синтеза видео Kandinsky Video, релиз которой состоялся на днях)
https://huggingface.co/papers/2311.13073
Поддержите лайками на Hugging Face - выйдем снова в Топ-1💪
UPD: Благодаря вам, уже Топ-2🙏🙏🙏
@complete_ai
https://huggingface.co/papers/2311.13073
Поддержите лайками на Hugging Face - выйдем снова в Топ-1💪
UPD: Благодаря вам, уже Топ-2🙏🙏🙏
@complete_ai
huggingface.co
Paper page - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline
Generation Pipeline
Join the discussion on this paper page
👍44🔥24❤🔥7🎉2
Forwarded from AbstractDL
Гугл представил Gemini — семейство мультимодальных моделей
Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷♂️
Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.
P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.
Статья, блог
Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷♂️
Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.
P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.
Статья, блог
👍19🔥7⚡4🎉2
AbstractDL
Гугл представил Gemini — семейство мультимодальных моделей Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить…
Наша модель OmniFusion на базе Mistral 7B справляется не хуже новой Gemini💪
👏35🔥15🏆7👍3👎2❤🔥1
✈️До конца недели я на EMNLP-2023. В этом году конференция в Сингапуре, у нас здесь будет демо стенд по Kandinsky.
Буду выкладывать интересные инсайты с конференции🇸🇬
P.S. Помню, что ещё обещал рассказать про Гуанчжоу, ну и дорога из Москвы до Сингапура тоже заслуживает отдельного внимания - всё будет😉
Если кто-то из моих подписчиков тоже здесь, буду рад пересечься!
@complete_ai
Буду выкладывать интересные инсайты с конференции🇸🇬
P.S. Помню, что ещё обещал рассказать про Гуанчжоу, ну и дорога из Москвы до Сингапура тоже заслуживает отдельного внимания - всё будет😉
Если кто-то из моих подписчиков тоже здесь, буду рад пересечься!
@complete_ai
👍50🔥20🏆7❤🔥2👎1