gonzo-обзоры ML статей
24.3K subscribers
3.2K photos
3 videos
3 files
1.54K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Кто хочет написать новую ОС?

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem
Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng Liu, Yanjie Fu, Huan Liu, Jian Pei
Статья: https://arxiv.org/abs/2603.08938
Ревью: https://arxiviq.substack.com/p/agentos-from-application-silos-to

# TL;DR

ЧТО сделали: Авторы предлагают концептуальный и архитектурный редизайн операционной системы — AgentOS. Она заменяет традиционные графические интерфейсы (GUI) и изолированные приложения на естественно-языковой интерфейс Single Port и ядро Agent Kernel, которое динамически переводит намерения пользователя в компонуемые модули-навыки (Skills-as-Modules).

ПОЧЕМУ это важно: Развёртывание вероятностных автономных агентов на базе LLM поверх старых детерминированных ОС создаёт хрупкие циклы взаимодействия и серьёзные уязвимости в безопасности. Переосмысляя ОС как непрерывный пайплайн Data Mining и извлечения знаний (KDD), AgentOS предлагает структурно нативный способ оркестрации мультиагентных воркфлоу, поддержания постоянной контекстной памяти и обеспечения семантических границ безопасности.

Для практиков: Заставлять автономных агентов работать в системах, созданных для визуального восприятия человеком, — фундаментальная ошибка, приводящая к узкому месту Screen-as-Interface (экран как интерфейс). AgentOS решает эту проблему, пряча традиционный рабочий стол под интеллектуальный слой маршрутизации намерений. Этот сдвиг требует перехода от классической системной инженерии к реалтайм-майнингу данных, где ОС должна постоянно строить персонализированные графы знаний, рекомендовать исполняемую логику и оптимизировать последовательности действий для безопасной реализации неоднозначных намерений.

Интент выражать здесь: https://t.me/gonzo_ML_podcasts/2837
🔥10😐7🤔5💩4😁32👍2👀1
Forwarded from gonzo_ML_podcasts
😁4🤮2
Forwarded from gonzo_ML_podcasts
😁2💩2
Forwarded from gonzo_ML_podcasts
😁8🔥2👍1
Вчера не нашёл подходящей картинки, а сегодня нашёл.

R.I.P.
😢56🫡2010💔3🕊1
Обновлённая V-JEPA 2.1, хороша и для видео, и для картинок. Несмотря на минорное различие в версии, разница в качестве колоссальная. По классике дип лёнинга, правильный лосс и его применение многое решают!

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning
Lorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes
Статья: https://arxiv.org/abs/2603.14482
Код и модели: https://github.com/facebookresearch/vjepa2
Ревью: https://arxiviq.substack.com/p/v-jepa-21-unlocking-dense-features

# TL;DR

ЧТО сделали: Авторы из FAIR представляют V-JEPA 2.1 — семейство vision-моделей на базе self-supervised learning, которое изящно объединяет репрезентации картинок и видео. Они расширили целевую функцию Joint-Embedding Predictive Architecture (JEPA), чтобы супервизия шла не только по замаскированным, но и по видимым токенам контекста (через лосс, взвешенный по расстоянию). Эту супервизию применили иерархически к промежуточным слоям энкодера, что заставило модель выучивать одновременно пространственно плотные (dense) и согласованные во времени фичи.

ПОЧЕМУ это важно: Исторически в self-supervised vision моделях был жёсткий трейдофф. Модели для картинок отлично схватывают локальную геометрию (глубину, сегментацию), а видео-модели — глобальную динамику и движение. V-JEPA 2.1 решает эту проблему. Получается единый энкодер, выдающий SOTA результаты как на плотных статических задачах (монокулярная оценка глубины), так и на предиктивных видео-задачах (робототехника, предсказание коротких действий). Это критически важный шаг к надёжным world models для embodied AI.

Для практиков: Теперь можно использовать одно замороженное пространство репрезентаций для оценки монокулярной глубины высокого разрешения, трекинга объектов во времени и предсказания кинематики. Это кардинально упрощает разработку пайплайнов для робототехники.

Выделять фичи тут: https://t.me/gonzo_ML_podcasts/2846
🔥12👍75🙏1
Long live RNN!

M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling
Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao
Статья: https://arxiv.org/abs/2603.14360
Ревью: https://arxiviq.substack.com/p/m2-rnn-non-linear-rnns-with-matrix
Код: https://github.com/open-lm-engine/lm-engine
Модель: https://huggingface.co/collections/open-lm-engine/m2rnn

# TL;DR

ЧТО сделали: Авторы представили Matrix-to-Matrix RNN (M²RNN) — новую архитектуру нелинейных рекуррентных нейросетей. Она расширяет традиционное скрытое состояние из плотного вектора в матрицу, которая обновляется через внешнее произведение (outer product), и делает это в сочетании с нелинейностью.

ПОЧЕМУ это важно: Линейные архитектуры класса structured state-space model и механизмы внимания сильно ограничены в теоретической выразительности, особенно в задачах отслеживания состояний детерминированных конечных автоматов. M²RNN полностью решает проблему выразительности. При этом архитектура обходит серьёзные штрафы к утилизации оборудования, исторически свойственные нелинейным RNN. Получается масштабируемый и выразительный готовый слой (drop-in replacement) для современных гибридных сетей.

Для практиков: Главный инсайт для команд предобучения: низкие результаты нелинейных RNN (типа LSTM или GRU) в языковом моделировании были проблемой ёмкости состояния, а не фундаментальным изъяном самой нелинейности. Соединив матричное скрытое состояние с зависящим от входа гейтом забывания (forget gate), M²RNN достигает отличного извлечения фактов на длинном контексте и идеальной обобщающей способности по длине. Если аккуратно вставить хотя бы один слой M²RNN в гибридную архитектуру, можно получить значительное снижение перплексии и рост точности на даунстрим-задачах почти без падения пропускной способности.

Изучать матричное состояние тут: https://t.me/gonzo_ML_podcasts/2861
13👍5🤔3