Почему омни-модели — это больше про инфраструктуру, чем про архитектуру
Последние пару лет вся индустрия пытается склеить модели: текст с изображениями, речь с текстом, диффузию с трансформерами. Со стороны это выглядит как архитектурная задача. Берем несколько моделей, склеим друг с другом, учим на мультимодальных данных — готово.
На практике все оказывается сильно сложнее. На примере собственного опыта это отлично показал Роман Исаченко в докладе. Роман отвечает за базовые технологии ART и VLM в Яндекс R&D, и вот что он рассказывает о том, как на самом деле обстоят дела с омни-моделями:
Первый bottleneck на уровне предобучения — не архитектура, а инфраструктура мультимодального обучения. На тысячах GPU это превращается в сложную систему с несколькими видами параллелизмов. Любая неэффективность сразу стоит скорости. В докладе был хороший пример про картиночный энкодер: в нем половина времени уходит не на основные вычисления, а на операции типа резидуалов и сложения байесов. Такое ловится только через глубокий профайлинг.
Вторый важный нюанс уже на уровне алайнмента. Здесь RL становится ключевой частью системы. Нужно проектировать реворды под разные модальности и следить, чтобы полученная система ревордов обладала свойством независимости, то есть отдельные реворды были нескорелированными между модальностями.
Ну и куда же без данных. Смешивание данных для обучения — отдельная история, тут очень важны пропорции. Нельзя просто добавить картинки к тексту и надеяться, что все заработает. Это долгий путь экспериментов, где подбор правильной микстуры занимает огромное количество времени.
Отсюда главный вывод: омни-модели — это не про новые архитектуры, а про умение обучать сложные системы. И именно на этом уровне сейчас происходит основной прогресс.
Последние пару лет вся индустрия пытается склеить модели: текст с изображениями, речь с текстом, диффузию с трансформерами. Со стороны это выглядит как архитектурная задача. Берем несколько моделей, склеим друг с другом, учим на мультимодальных данных — готово.
На практике все оказывается сильно сложнее. На примере собственного опыта это отлично показал Роман Исаченко в докладе. Роман отвечает за базовые технологии ART и VLM в Яндекс R&D, и вот что он рассказывает о том, как на самом деле обстоят дела с омни-моделями:
Первый bottleneck на уровне предобучения — не архитектура, а инфраструктура мультимодального обучения. На тысячах GPU это превращается в сложную систему с несколькими видами параллелизмов. Любая неэффективность сразу стоит скорости. В докладе был хороший пример про картиночный энкодер: в нем половина времени уходит не на основные вычисления, а на операции типа резидуалов и сложения байесов. Такое ловится только через глубокий профайлинг.
Вторый важный нюанс уже на уровне алайнмента. Здесь RL становится ключевой частью системы. Нужно проектировать реворды под разные модальности и следить, чтобы полученная система ревордов обладала свойством независимости, то есть отдельные реворды были нескорелированными между модальностями.
Ну и куда же без данных. Смешивание данных для обучения — отдельная история, тут очень важны пропорции. Нельзя просто добавить картинки к тексту и надеяться, что все заработает. Это долгий путь экспериментов, где подбор правильной микстуры занимает огромное количество времени.
Отсюда главный вывод: омни-модели — это не про новые архитектуры, а про умение обучать сложные системы. И именно на этом уровне сейчас происходит основной прогресс.
YouTube
Визуально-текстовая омни-модель: путь к объединению LLM и VLM / Роман Исаченко
На Saturday ML Party Роман Исаченко, руководитель группы анализа изображений в Яндекс R&D, рассказал, как выглядел долгий путь к сведению LLM и VLM из части семейства Alice AI в единую омни-модель. Она умеет работать с текстом и изображениями в одном контуре.…
❤28🗿24🔥14👍11🤯4👌1🤝1
Некто реализовал хлыст, который бьет агента Claude, и Anthropic отправили ему за это досудебную претензию
Уже пару дней в Интернете вирусится цифровой хлыст для Claude. Это просто игрушечная утилита, которая «размахивает» в терминале хлыстом и раз в несколько секунд пишет в Claude Code “FASTER FASTER FASTER”.
Всем смешно, а вот антропикам – нет. Они взяли и выслали создателю юридическое письмо, требующее прекратить действия, нарушающие торговую марку или вводящие пользователей в заблуждение относительно связи с компанией.
Все из-за того, что в названии проекта фигурирует название их модели (Whip for Claude). Anthropic требует убрать любое использование их бренда или «намеков на партнерство», а также предоставить письменное подтверждение выполнения требований до 14 апреля.
На самом деле они просто защищают хрупкие чувства своего агента😭
Уже пару дней в Интернете вирусится цифровой хлыст для Claude. Это просто игрушечная утилита, которая «размахивает» в терминале хлыстом и раз в несколько секунд пишет в Claude Code “FASTER FASTER FASTER”.
Всем смешно, а вот антропикам – нет. Они взяли и выслали создателю юридическое письмо, требующее прекратить действия, нарушающие торговую марку или вводящие пользователей в заблуждение относительно связи с компанией.
Все из-за того, что в названии проекта фигурирует название их модели (Whip for Claude). Anthropic требует убрать любое использование их бренда или «намеков на партнерство», а также предоставить письменное подтверждение выполнения требований до 14 апреля.
На самом деле они просто защищают хрупкие чувства своего агента
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁284❤35🤯15 11🗿5 4👍3💯3🍓3❤🔥2🤝1
Meta* показали первую языковую модель от нового подразделения Meta Superintelligence Lab by Александр Ван
И это... оказалась не очередная Llama😐
Модель назвали Muse Spark, она пока не в опенсорсе, но в блоге пишут, что "надеются на опенсорс будущих версий". Говорят, что за последние девять месяцев компания переработала архитектуру, оптимизацию и процесс обработки данных, и теперь достигает сопоставимых возможностей с более ранними моделями, используя на порядок меньше компьюта.
По метрикам:
– По кодингу ничего сверхъестественного, ожидаемо отстает от Opus 4.6 и GPT-5.4
– Хорошие показатели на HLE, но на ARC-AGI-2 до соты далеко
– Впечатляющие результаты на медицине и мультимодальных бенчмарках, модель отлично прокачали для всяких визуальных задач
Также представили режим Contemplating для запуска нескольких агентов. Это некий аналог Gemini Deep Think и GPT Pro.
Пока модель доступна только на meta.ai. Скоро ее обещают добавить в WhatsApp, Instagram, Facebook и в Meta Ray-Ban (видимо, для очков визуальные способности и качали).
В целом, неплохой старт, чтобы вернуться в гонку.
ai.meta.com/blog/introducing-muse-spark-msl
И это... оказалась не очередная Llama
Модель назвали Muse Spark, она пока не в опенсорсе, но в блоге пишут, что "надеются на опенсорс будущих версий". Говорят, что за последние девять месяцев компания переработала архитектуру, оптимизацию и процесс обработки данных, и теперь достигает сопоставимых возможностей с более ранними моделями, используя на порядок меньше компьюта.
По метрикам:
– По кодингу ничего сверхъестественного, ожидаемо отстает от Opus 4.6 и GPT-5.4
– Хорошие показатели на HLE, но на ARC-AGI-2 до соты далеко
– Впечатляющие результаты на медицине и мультимодальных бенчмарках, модель отлично прокачали для всяких визуальных задач
Также представили режим Contemplating для запуска нескольких агентов. Это некий аналог Gemini Deep Think и GPT Pro.
Пока модель доступна только на meta.ai. Скоро ее обещают добавить в WhatsApp, Instagram, Facebook и в Meta Ray-Ban (видимо, для очков визуальные способности и качали).
В целом, неплохой старт, чтобы вернуться в гонку.
ai.meta.com/blog/introducing-muse-spark-msl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🗿29❤11🎉1
Data Secrets
О, Андрей Карпаты навайбкодил собственный Твиттер https://karpathytalk.com Андрей заявил, что разочарован в X/Twitter, Threads и Substack, потому что качество контента на этих платформах оставляет желать лучшего, а сами платформы неуважительно относятся…
Тем временем происходящее в новой соцсети Андрея Карпаты:
1😁348❤42😎19🗿7❤🔥4🤔3🤝2👍1🤩1