Data Secrets

Почему омни-модели — это больше про инфраструктуру, чем про архитектуру

Последние пару лет вся индустрия пытается склеить модели: текст с изображениями, речь с текстом, диффузию с трансформерами. Со стороны это выглядит как архитектурная задача. Берем несколько моделей, склеим друг с другом, учим на мультимодальных данных — готово.

На практике все оказывается сильно сложнее. На примере собственного опыта это отлично показал Роман Исаченко в докладе. Роман отвечает за базовые технологии ART и VLM в Яндекс R&D, и вот что он рассказывает о том, как на самом деле обстоят дела с омни-моделями:

Первый bottleneck на уровне предобучения — не архитектура, а инфраструктура мультимодального обучения. На тысячах GPU это превращается в сложную систему с несколькими видами параллелизмов. Любая неэффективность сразу стоит скорости. В докладе был хороший пример про картиночный энкодер: в нем половина времени уходит не на основные вычисления, а на операции типа резидуалов и сложения байесов. Такое ловится только через глубокий профайлинг.

Вторый важный нюанс уже на уровне алайнмента. Здесь RL становится ключевой частью системы. Нужно проектировать реворды под разные модальности и следить, чтобы полученная система ревордов обладала свойством независимости, то есть отдельные реворды были нескорелированными между модальностями.

Ну и куда же без данных. Смешивание данных для обучения — отдельная история, тут очень важны пропорции. Нельзя просто добавить картинки к тексту и надеяться, что все заработает. Это долгий путь экспериментов, где подбор правильной микстуры занимает огромное количество времени.

Отсюда главный вывод: омни-модели — это не про новые архитектуры, а про умение обучать сложные системы. И именно на этом уровне сейчас происходит основной прогресс.

YouTube

Визуально-текстовая омни-модель: путь к объединению LLM и VLM / Роман Исаченко

На Saturday ML Party Роман Исаченко, руководитель группы анализа изображений в Яндекс R&D, рассказал, как выглядел долгий путь к сведению LLM и VLM из части семейства Alice AI в единую омни-модель. Она умеет работать с текстом и изображениями в одном контуре.…

❤28🗿24🔥14👍11🤯4👌1🤝1

12.9K views13:02

Data Secrets

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Некто реализовал хлыст, который бьет агента Claude, и Anthropic отправили ему за это досудебную претензию

Уже пару дней в Интернете вирусится цифровой хлыст для Claude. Это просто игрушечная утилита, которая «размахивает» в терминале хлыстом и раз в несколько секунд пишет в Claude Code “FASTER FASTER FASTER”.

Всем смешно, а вот антропикам – нет. Они взяли и выслали создателю юридическое письмо, требующее прекратить действия, нарушающие торговую марку или вводящие пользователей в заблуждение относительно связи с компанией.

Все из-за того, что в названии проекта фигурирует название их модели (Whip for Claude). Anthropic требует убрать любое использование их бренда или «намеков на партнерство», а также предоставить письменное подтверждение выполнения требований до 14 апреля.

На самом деле они просто защищают хрупкие чувства своего агента 😭

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁284❤35🤯1511🗿54👍3💯3🍓3❤‍🔥2🤝1

13K views14:08

Data Secrets

Meta* показали первую языковую модель от нового подразделения Meta Superintelligence Lab by Александр Ван

И это... оказалась не очередная Llama 😐

Модель назвали Muse Spark, она пока не в опенсорсе, но в блоге пишут, что "надеются на опенсорс будущих версий". Говорят, что за последние девять месяцев компания переработала архитектуру, оптимизацию и процесс обработки данных, и теперь достигает сопоставимых возможностей с более ранними моделями, используя на порядок меньше компьюта.

По метрикам:

– По кодингу ничего сверхъестественного, ожидаемо отстает от Opus 4.6 и GPT-5.4
– Хорошие показатели на HLE, но на ARC-AGI-2 до соты далеко
– Впечатляющие результаты на медицине и мультимодальных бенчмарках, модель отлично прокачали для всяких визуальных задач

Также представили режим Contemplating для запуска нескольких агентов. Это некий аналог Gemini Deep Think и GPT Pro.

Пока модель доступна только на meta.ai. Скоро ее обещают добавить в WhatsApp, Instagram, Facebook и в Meta Ray-Ban (видимо, для очков визуальные способности и качали).

В целом, неплохой старт, чтобы вернуться в гонку.

ai.meta.com/blog/introducing-muse-spark-msl

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍47🗿29❤11🎉1

10.2K views17:35

Data Secrets

О, Андрей Карпаты навайбкодил собственный Твиттер https://karpathytalk.com Андрей заявил, что разочарован в X/Twitter, Threads и Substack, потому что качество контента на этих платформах оставляет желать лучшего, а сами платформы неуважительно относятся…

Тем временем происходящее в новой соцсети Андрея Карпаты:

1😁348❤42😎19🗿7❤‍🔥4🤔3🤝2👍1🤩1

10.1K views17:47

About

Blog

Apps

Platform