⚡⚡⚡Научили Kandinsky 2.2 "понимать" время
Мы сегодня расширяем способности Kandinsky 2.2 и добавляем новую возможность создавать видеоролики по текстовому описанию в режиме анимации. По одному текстовому описанию генерируется 4-секундное видео, эффект анимации можно выбрать из предложенного списка: от смещений в разные стороны до сложных пролётов над сценой - всего таких режимов 16 штук.
Видео генерируются с частотой 24 кадра в секунду и разрешением 640×640 пикселей. Ожидание генерации от запуска до результат составит около 1.5 минут.
Так как новый режим ресурсозатратный, мы решили пока дать доступ самым активным пользователям Kandinsky 2.2, которые получат приглашение в ближайшее время. Ну а к концу года обязательно раскатаем для всех).
Мы также добавили интересный режим, который для себя назвали "Режиссёр". Смысл в том, что пользователь может ввести 1-3 текстовых описаний, затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».
Те пользователи, которые хотят попробовать новые возможности модели сейчас, могут оставить заявку на получение доступа в Telegram-боте.
Ну и мы следуем традиции - код выложен в open source, на Хабре больше деталей и генераций.
Добро пожаловать из мира статики в мир динамики💪
Очень жду ваш фидбэк — это для нас крайне важно!
📌Полезные ссылки:
Сайт проекта
GitHub
Telegram-бот
Хабр
UPD:
Добавили галерею на rudalle.ru
Добавил ссылку на Хабр
@complete_ai
Мы сегодня расширяем способности Kandinsky 2.2 и добавляем новую возможность создавать видеоролики по текстовому описанию в режиме анимации. По одному текстовому описанию генерируется 4-секундное видео, эффект анимации можно выбрать из предложенного списка: от смещений в разные стороны до сложных пролётов над сценой - всего таких режимов 16 штук.
Видео генерируются с частотой 24 кадра в секунду и разрешением 640×640 пикселей. Ожидание генерации от запуска до результат составит около 1.5 минут.
Так как новый режим ресурсозатратный, мы решили пока дать доступ самым активным пользователям Kandinsky 2.2, которые получат приглашение в ближайшее время. Ну а к концу года обязательно раскатаем для всех).
Мы также добавили интересный режим, который для себя назвали "Режиссёр". Смысл в том, что пользователь может ввести 1-3 текстовых описаний, затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».
Те пользователи, которые хотят попробовать новые возможности модели сейчас, могут оставить заявку на получение доступа в Telegram-боте.
Ну и мы следуем традиции - код выложен в open source, на Хабре больше деталей и генераций.
Добро пожаловать из мира статики в мир динамики💪
Очень жду ваш фидбэк — это для нас крайне важно!
📌Полезные ссылки:
Сайт проекта
GitHub
Telegram-бот
Хабр
UPD:
Добавили галерею на rudalle.ru
Добавил ссылку на Хабр
@complete_ai
🔥50👍13❤🔥7👏4🎉3🏆3👎1
🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models
Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.
Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)
Статья
@complete_ai
BitNet: Scaling 1-bit Transformers for Large Language Models
Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.
Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)
Статья
@complete_ai
🔥19👍6💯4
Please open Telegram to view this post
VIEW IN TELEGRAM
💯42👎9⚡4🏆4
Вчера выступал на российско-китайской Открытой конференции NAUKA 0+ МГУ в г. Шеньчжень, Китай с пленарным докладом о мультимодальных архитектурах и исследованиях, которыми мы активно занимается в рамках научной группы FusionBrain.
Это мой первый опыт рабочей поездки в Азию и вот, чем хочется поделиться с вами:
1) китайцы очень по-хорошему любопытный и заинтересованный народ, жадный до новых идей и знаний, стараются донести мысль как угодно, даже с помощью электронного переводчика и жестов
2) г. Шеньчжень всего 40 лет, но выглядит он очень большим и активно застраиваются огромные многоэтажные кварталы
3) вокруг очень чисто, огромное количество парков, тёплом море, низкие цены на многие товары
4) по части блюд визуально невозможно определить, что там может быть в составе🤔
5) конференция проходит в МГУ-ППИ в Шеньчжене, который является мини-копией Московского (вики)
6) Курорты на Южно-Китайском море (Dameisha Resort!!!) - отличная альтернатива Таиланду🏖️
7) К сожалению нет возможности попасть в Гонконг по однократной академической китайской визе. После пересечения границы - обратной дороги не будет:(
8) Наличие знания английского языка никак здесь вам не поможет, так же как и наличие любой валюты кроме юаней и карт UnionPay (карту сделал в РФ в одном из банков). Идеально иметь WeChat или Alipay, но туда не так просто попасть
9) Большинство автомобилей - электромобили, поэтому порой идя по оживленной улице ты преимущественно можешь слышать сигналы клаксона, речь людей и все остальные звуки, кроме двигателей🚎
10) В номерах очень любят делать стеклянные прозрачные перегородки между комнатой и ванной🛀
На следующей неделе буду в Гуанчжоу пару дней - посмотрим, чем меня удивит Китай там🇨🇳
Это мой первый опыт рабочей поездки в Азию и вот, чем хочется поделиться с вами:
1) китайцы очень по-хорошему любопытный и заинтересованный народ, жадный до новых идей и знаний, стараются донести мысль как угодно, даже с помощью электронного переводчика и жестов
2) г. Шеньчжень всего 40 лет, но выглядит он очень большим и активно застраиваются огромные многоэтажные кварталы
3) вокруг очень чисто, огромное количество парков, тёплом море, низкие цены на многие товары
4) по части блюд визуально невозможно определить, что там может быть в составе🤔
5) конференция проходит в МГУ-ППИ в Шеньчжене, который является мини-копией Московского (вики)
6) Курорты на Южно-Китайском море (Dameisha Resort!!!) - отличная альтернатива Таиланду🏖️
7) К сожалению нет возможности попасть в Гонконг по однократной академической китайской визе. После пересечения границы - обратной дороги не будет:(
8) Наличие знания английского языка никак здесь вам не поможет, так же как и наличие любой валюты кроме юаней и карт UnionPay (карту сделал в РФ в одном из банков). Идеально иметь WeChat или Alipay, но туда не так просто попасть
9) Большинство автомобилей - электромобили, поэтому порой идя по оживленной улице ты преимущественно можешь слышать сигналы клаксона, речь людей и все остальные звуки, кроме двигателей🚎
10) В номерах очень любят делать стеклянные прозрачные перегородки между комнатой и ванной🛀
На следующей неделе буду в Гуанчжоу пару дней - посмотрим, чем меня удивит Китай там🇨🇳
🔥89👍32💯3👎2👏2
Выложили сегодня статью на архив по исследованиям анизотропии intrinsic dimensions в трансформерах. Очень интересные результаты получились в части компактности представлений эмбеддингов на внутренних слоях.
Вышел даже обзор статьи на YouTube
Вышел даже обзор статьи на YouTube
YouTube
The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models
This study investigates the anisotropy dynamics and intrinsic dimension of embeddings in transformer architectures, revealing distinct patterns in encoders and decoders. Initial training expands dimensionality, while later training refines into more compact…
❤🔥17💯8🎉5
Forwarded from AbstractDL
The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models
Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.
Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.
Статья
Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.
Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.
Статья
1❤🔥19🔥8🎉5
🔥33👍5👏3💯2
Дорогу Kandinsky Video 🎬
🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас!
Внутри наша модель состоит из двух этапов, которые отвечают за две важные задачи синтеза: генерация ключевых кадров (для управления сюжетной линией видео) и генерация дополнительных кадров (для плавности движений).
А теперь чуть-чуть подробнее:
📌 в качестве генератора кадров используется модель Kandinsky 3.0
📌разрешение генераций 512 пикселей
📌генерировать можно с различным соотношением сторон
📌можно выбрать частоту кадров для плановности
📌генерация занимает от 1 до 3 минут (зависит от степени плавности, которой вы хотите добиться при синтезе)
Ссылки на проект:
FusionBrain.ai
Telegram bot
сайт проекта
rudalle.ru
GitHub
Почитать подробнее про Kandinsky Video можно в новой статье на Хабре.
По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи🤝
UPD: опубликовали статью на arXiv по результатам исследований
@complete_ai
🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас!
Внутри наша модель состоит из двух этапов, которые отвечают за две важные задачи синтеза: генерация ключевых кадров (для управления сюжетной линией видео) и генерация дополнительных кадров (для плавности движений).
А теперь чуть-чуть подробнее:
📌 в качестве генератора кадров используется модель Kandinsky 3.0
📌разрешение генераций 512 пикселей
📌генерировать можно с различным соотношением сторон
📌можно выбрать частоту кадров для плановности
📌генерация занимает от 1 до 3 минут (зависит от степени плавности, которой вы хотите добиться при синтезе)
Ссылки на проект:
FusionBrain.ai
Telegram bot
сайт проекта
rudalle.ru
GitHub
Почитать подробнее про Kandinsky Video можно в новой статье на Хабре.
По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи🤝
UPD: опубликовали статью на arXiv по результатам исследований
@complete_ai
fusionbrain.ai
Fusion Brain — платформа для генерации изображений с помощью нейросети Кандинский
Создавай, редактируй и стилизуй изображения вместе с нейросетью. Преврати идеи в образы за секунды с помощью Кандинский. Kandinsky. Начать творить. Бесплатно, прямо из браузера, с любых устройств. Искусственный интеллект. Fusion Brain
🔥67❤🔥17🏆10👍4👎3👏2❤1
💪День релизов не закончился, поэтому хочу порадовать вас ещё одной новостью!
🚀Выходим за границы текста
С удовольствием анонсирую новую мультимодальную мультизадачную модель OmniFusion. Работает одинаково хорошо как с текстом, так и с изображениями. Она понимает, анализирует, отвечает на вопросы и продолжает диалог.
🦾 Точно определяет объекты на картинке
🦾 Детектирует расположение и цвета
🦾 Считает объекты
🦾 Работает на английском и русском языках
🦾 Умеет рассуждать и решать сложные задачи даже в специфических доменах, в том числе IQ тесты
В OmniFusion мы использовали очень интересный способ объединения разных модальностей без обучения «с нуля». Правильным образом построили адаптеры над энкодерами, исследовали различные механики обучения и дообучили предобученную LLM, лежащую в основе, понимать изображения.
👀 Обучали на основе модели с 7В параметров, а по качеству почти добрались до LLaVA с 13В в основе.
Узнать больше об архитектуре можно на Хабре, а пока ловите примеры работы.
@complete_ai
🚀Выходим за границы текста
С удовольствием анонсирую новую мультимодальную мультизадачную модель OmniFusion. Работает одинаково хорошо как с текстом, так и с изображениями. Она понимает, анализирует, отвечает на вопросы и продолжает диалог.
🦾 Точно определяет объекты на картинке
🦾 Детектирует расположение и цвета
🦾 Считает объекты
🦾 Работает на английском и русском языках
🦾 Умеет рассуждать и решать сложные задачи даже в специфических доменах, в том числе IQ тесты
В OmniFusion мы использовали очень интересный способ объединения разных модальностей без обучения «с нуля». Правильным образом построили адаптеры над энкодерами, исследовали различные механики обучения и дообучили предобученную LLM, лежащую в основе, понимать изображения.
👀 Обучали на основе модели с 7В параметров, а по качеству почти добрались до LLaVA с 13В в основе.
Узнать больше об архитектуре можно на Хабре, а пока ловите примеры работы.
@complete_ai
❤🔥44🏆20🔥11⚡4👍1