Forwarded from AbstractDL
The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models
Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.
Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.
Статья
Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.
Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.
Статья
1❤🔥19🔥8🎉5
🔥33👍5👏3💯2
Дорогу Kandinsky Video 🎬
🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас!
Внутри наша модель состоит из двух этапов, которые отвечают за две важные задачи синтеза: генерация ключевых кадров (для управления сюжетной линией видео) и генерация дополнительных кадров (для плавности движений).
А теперь чуть-чуть подробнее:
📌 в качестве генератора кадров используется модель Kandinsky 3.0
📌разрешение генераций 512 пикселей
📌генерировать можно с различным соотношением сторон
📌можно выбрать частоту кадров для плановности
📌генерация занимает от 1 до 3 минут (зависит от степени плавности, которой вы хотите добиться при синтезе)
Ссылки на проект:
FusionBrain.ai
Telegram bot
сайт проекта
rudalle.ru
GitHub
Почитать подробнее про Kandinsky Video можно в новой статье на Хабре.
По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи🤝
UPD: опубликовали статью на arXiv по результатам исследований
@complete_ai
🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас!
Внутри наша модель состоит из двух этапов, которые отвечают за две важные задачи синтеза: генерация ключевых кадров (для управления сюжетной линией видео) и генерация дополнительных кадров (для плавности движений).
А теперь чуть-чуть подробнее:
📌 в качестве генератора кадров используется модель Kandinsky 3.0
📌разрешение генераций 512 пикселей
📌генерировать можно с различным соотношением сторон
📌можно выбрать частоту кадров для плановности
📌генерация занимает от 1 до 3 минут (зависит от степени плавности, которой вы хотите добиться при синтезе)
Ссылки на проект:
FusionBrain.ai
Telegram bot
сайт проекта
rudalle.ru
GitHub
Почитать подробнее про Kandinsky Video можно в новой статье на Хабре.
По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи🤝
UPD: опубликовали статью на arXiv по результатам исследований
@complete_ai
fusionbrain.ai
Fusion Brain — платформа для генерации изображений с помощью нейросети Кандинский
Создавай, редактируй и стилизуй изображения вместе с нейросетью. Преврати идеи в образы за секунды с помощью Кандинский. Kandinsky. Начать творить. Бесплатно, прямо из браузера, с любых устройств. Искусственный интеллект. Fusion Brain
🔥67❤🔥17🏆10👍4👎3👏2❤1
💪День релизов не закончился, поэтому хочу порадовать вас ещё одной новостью!
🚀Выходим за границы текста
С удовольствием анонсирую новую мультимодальную мультизадачную модель OmniFusion. Работает одинаково хорошо как с текстом, так и с изображениями. Она понимает, анализирует, отвечает на вопросы и продолжает диалог.
🦾 Точно определяет объекты на картинке
🦾 Детектирует расположение и цвета
🦾 Считает объекты
🦾 Работает на английском и русском языках
🦾 Умеет рассуждать и решать сложные задачи даже в специфических доменах, в том числе IQ тесты
В OmniFusion мы использовали очень интересный способ объединения разных модальностей без обучения «с нуля». Правильным образом построили адаптеры над энкодерами, исследовали различные механики обучения и дообучили предобученную LLM, лежащую в основе, понимать изображения.
👀 Обучали на основе модели с 7В параметров, а по качеству почти добрались до LLaVA с 13В в основе.
Узнать больше об архитектуре можно на Хабре, а пока ловите примеры работы.
@complete_ai
🚀Выходим за границы текста
С удовольствием анонсирую новую мультимодальную мультизадачную модель OmniFusion. Работает одинаково хорошо как с текстом, так и с изображениями. Она понимает, анализирует, отвечает на вопросы и продолжает диалог.
🦾 Точно определяет объекты на картинке
🦾 Детектирует расположение и цвета
🦾 Считает объекты
🦾 Работает на английском и русском языках
🦾 Умеет рассуждать и решать сложные задачи даже в специфических доменах, в том числе IQ тесты
В OmniFusion мы использовали очень интересный способ объединения разных модальностей без обучения «с нуля». Правильным образом построили адаптеры над энкодерами, исследовали различные механики обучения и дообучили предобученную LLM, лежащую в основе, понимать изображения.
👀 Обучали на основе модели с 7В параметров, а по качеству почти добрались до LLaVA с 13В в основе.
Узнать больше об архитектуре можно на Хабре, а пока ловите примеры работы.
@complete_ai
❤🔥44🏆20🔥11⚡4👍1
Complete AI pinned «Дорогу Kandinsky Video 🎬 🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас! Внутри наша модель состоит из двух этапов, которые…»
Forwarded from Институт AIRI
Представляем новую мультимодальную мультизадачную модель OmniFusion, которую мы сделали совместно с исследователями из Sber AI и SberDevices ✨
Модель способна анализировать, описывать и отвечать на вопросы по изображениям, поддерживая непрерывный диалог с пользователем. Анализируя предоставленные пользователем изображения, OmniFusion точно распознаёт расположенные на них объекты, их количество, цвет и положение в пространстве.
OmniFusion может не просто описать картинку, но и ответить на сопутствующие вопросы, а также использовать извлечённую информацию в ходе диалога с человеком. Например, она может распознать сфотографированное блюдо и предложить рецепты его приготовления, найти ответ на логическую задачу или объяснить шутку.
Больше интересного про архитектуру:
→ Новый пост на Хабр про то, как устроена модель OmniFusion
→ Рассказ про модель от Андрея Кузнецова, а также доклад Ивана Оселедца на AI Journey 2023
Модель способна анализировать, описывать и отвечать на вопросы по изображениям, поддерживая непрерывный диалог с пользователем. Анализируя предоставленные пользователем изображения, OmniFusion точно распознаёт расположенные на них объекты, их количество, цвет и положение в пространстве.
OmniFusion может не просто описать картинку, но и ответить на сопутствующие вопросы, а также использовать извлечённую информацию в ходе диалога с человеком. Например, она может распознать сфотографированное блюдо и предложить рецепты его приготовления, найти ответ на логическую задачу или объяснить шутку.
Больше интересного про архитектуру:
→ Новый пост на Хабр про то, как устроена модель OmniFusion
→ Рассказ про модель от Андрея Кузнецова, а также доклад Ивана Оселедца на AI Journey 2023
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥16🏆5❤🔥1
🔥В списке DailyPapers на Hugging Face снова наша статья про модель синтеза видео Kandinsky Video, релиз которой состоялся на днях)
https://huggingface.co/papers/2311.13073
Поддержите лайками на Hugging Face - выйдем снова в Топ-1💪
UPD: Благодаря вам, уже Топ-2🙏🙏🙏
@complete_ai
https://huggingface.co/papers/2311.13073
Поддержите лайками на Hugging Face - выйдем снова в Топ-1💪
UPD: Благодаря вам, уже Топ-2🙏🙏🙏
@complete_ai
huggingface.co
Paper page - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline
Generation Pipeline
Join the discussion on this paper page
👍44🔥24❤🔥7🎉2
Forwarded from AbstractDL
Гугл представил Gemini — семейство мультимодальных моделей
Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷♂️
Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.
P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.
Статья, блог
Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷♂️
Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.
P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.
Статья, блог
👍19🔥7⚡4🎉2
AbstractDL
Гугл представил Gemini — семейство мультимодальных моделей Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить…
Наша модель OmniFusion на базе Mistral 7B справляется не хуже новой Gemini💪
👏35🔥15🏆7👍3👎2❤🔥1
✈️До конца недели я на EMNLP-2023. В этом году конференция в Сингапуре, у нас здесь будет демо стенд по Kandinsky.
Буду выкладывать интересные инсайты с конференции🇸🇬
P.S. Помню, что ещё обещал рассказать про Гуанчжоу, ну и дорога из Москвы до Сингапура тоже заслуживает отдельного внимания - всё будет😉
Если кто-то из моих подписчиков тоже здесь, буду рад пересечься!
@complete_ai
Буду выкладывать интересные инсайты с конференции🇸🇬
P.S. Помню, что ещё обещал рассказать про Гуанчжоу, ну и дорога из Москвы до Сингапура тоже заслуживает отдельного внимания - всё будет😉
Если кто-то из моих подписчиков тоже здесь, буду рад пересечься!
@complete_ai
👍50🔥20🏆7❤🔥2👎1
Complete AI
Вчера выступал на российско-китайской Открытой конференции NAUKA 0+ МГУ в г. Шеньчжень, Китай с пленарным докладом о мультимодальных архитектурах и исследованиях, которыми мы активно занимается в рамках научной группы FusionBrain. Это мой первый опыт рабочей…
С некоторым запозданием возвращаюсь к рассказу о поездке в Гуанчжоу. Добирался туда на скоростном поезде из Шеньчженя, поэтому путь в 140 км занял около 30 минут.
По приезде первая задача была найти такси и тут всё очень интересно: есть официальные такси, есть «бомбилы», которые дерут деньги и которых гоняют полицейские очень сурово. А в обычное такси ты должен просто отстоять в живой очереди из пассажиров - эдакий матчинг двух бесконечных очередей: люди и машины.
Заселился в 4 seasons по промо стоимости, и это было лучшее место, в котором я бывал в командировках. Чтобы повысить КПД от поездки, по приезде сразу пошли изучать достопримечательности.
Отправились в Canton Tower - телебашня высотой 604 м, в которой много разных точек обзора. Мы там взяли полный билет и прошли все доступные уровни для наблюдения) А на верхушке установлен самый высокий аттракцион для свободного падения.🎢
📋Из особенностей - передвигаться пешком практически невозможно, везде очень много скутеров, которые едут по тротуарам наравне со всеми) Ощущения безопасности нет от слова совсем. С англ языком такие же проблемы - почти никто его не понимает. В остальном - гигантский суперсовременный и красивый город!
Подводя итог: новые впечатления от еще одного города Китая. Рекомендую всем, кто планирует побывать в этой стране, заехать в этот город. Фото по написанному прилагаю😉 На этом путь по Китаю в этом году завершён) Далее - Сингапур🇸🇬
По приезде первая задача была найти такси и тут всё очень интересно: есть официальные такси, есть «бомбилы», которые дерут деньги и которых гоняют полицейские очень сурово. А в обычное такси ты должен просто отстоять в живой очереди из пассажиров - эдакий матчинг двух бесконечных очередей: люди и машины.
Заселился в 4 seasons по промо стоимости, и это было лучшее место, в котором я бывал в командировках. Чтобы повысить КПД от поездки, по приезде сразу пошли изучать достопримечательности.
Отправились в Canton Tower - телебашня высотой 604 м, в которой много разных точек обзора. Мы там взяли полный билет и прошли все доступные уровни для наблюдения) А на верхушке установлен самый высокий аттракцион для свободного падения.🎢
📋Из особенностей - передвигаться пешком практически невозможно, везде очень много скутеров, которые едут по тротуарам наравне со всеми) Ощущения безопасности нет от слова совсем. С англ языком такие же проблемы - почти никто его не понимает. В остальном - гигантский суперсовременный и красивый город!
Подводя итог: новые впечатления от еще одного города Китая. Рекомендую всем, кто планирует побывать в этой стране, заехать в этот город. Фото по написанному прилагаю😉 На этом путь по Китаю в этом году завершён) Далее - Сингапур🇸🇬
❤🔥19🔥14👏4