gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.55K views17:34

Forwarded from gonzo_ML_podcasts

2.62K views17:36

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.67K views17:36

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👍4

2.62K views17:43

gonzo-обзоры ML статей

Кто хочет написать новую ОС?

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem
Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng Liu, Yanjie Fu, Huan Liu, Jian Pei
Статья: https://arxiv.org/abs/2603.08938
Ревью: https://arxiviq.substack.com/p/agentos-from-application-silos-to

# TL;DR

ЧТО сделали: Авторы предлагают концептуальный и архитектурный редизайн операционной системы — AgentOS. Она заменяет традиционные графические интерфейсы (GUI) и изолированные приложения на естественно-языковой интерфейс Single Port и ядро Agent Kernel, которое динамически переводит намерения пользователя в компонуемые модули-навыки (Skills-as-Modules).

ПОЧЕМУ это важно: Развёртывание вероятностных автономных агентов на базе LLM поверх старых детерминированных ОС создаёт хрупкие циклы взаимодействия и серьёзные уязвимости в безопасности. Переосмысляя ОС как непрерывный пайплайн Data Mining и извлечения знаний (KDD), AgentOS предлагает структурно нативный способ оркестрации мультиагентных воркфлоу, поддержания постоянной контекстной памяти и обеспечения семантических границ безопасности.

Для практиков: Заставлять автономных агентов работать в системах, созданных для визуального восприятия человеком, — фундаментальная ошибка, приводящая к узкому месту Screen-as-Interface (экран как интерфейс). AgentOS решает эту проблему, пряча традиционный рабочий стол под интеллектуальный слой маршрутизации намерений. Этот сдвиг требует перехода от классической системной инженерии к реалтайм-майнингу данных, где ОС должна постоянно строить персонализированные графы знаний, рекомендовать исполняемую логику и оптимизировать последовательности действий для безопасной реализации неоднозначных намерений.

Интент выражать здесь: https://t.me/gonzo_ML_podcasts/2837

arXiv.org

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

The rapid emergence of open-source, locally hosted intelligent agents marks a critical inflection point in human-computer interaction. Systems such as OpenClaw demonstrate that Large Language...

🔥10😐7🤔5💩4😁3❤2👍2👀1

3.14K views13:35

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

😁4🤮2

2.73K views13:35

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

😁2💩2

2.95K views13:35

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

😁8🔥2👍1

3.1K views13:36

gonzo-обзоры ML статей

Пост про RL для ризонинг моделей

https://aweers.de/blog/2026/rl-for-llms/

aweers.de

State of RL for reasoning LLMs | A. Weers

PhD student

❤10👍4

3.45K views07:40

gonzo-обзоры ML статей

Вчера не нашёл подходящей картинки, а сегодня нашёл.

R.I.P.

😢56🫡20❤10💔3🕊1

3.15K views10:41

gonzo-обзоры ML статей

Обновлённая V-JEPA 2.1, хороша и для видео, и для картинок. Несмотря на минорное различие в версии, разница в качестве колоссальная. По классике дип лёнинга, правильный лосс и его применение многое решают!

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning
Lorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes
Статья: https://arxiv.org/abs/2603.14482
Код и модели: https://github.com/facebookresearch/vjepa2
Ревью: https://arxiviq.substack.com/p/v-jepa-21-unlocking-dense-features

# TL;DR

ЧТО сделали: Авторы из FAIR представляют V-JEPA 2.1 — семейство vision-моделей на базе self-supervised learning, которое изящно объединяет репрезентации картинок и видео. Они расширили целевую функцию Joint-Embedding Predictive Architecture (JEPA), чтобы супервизия шла не только по замаскированным, но и по видимым токенам контекста (через лосс, взвешенный по расстоянию). Эту супервизию применили иерархически к промежуточным слоям энкодера, что заставило модель выучивать одновременно пространственно плотные (dense) и согласованные во времени фичи.

ПОЧЕМУ это важно: Исторически в self-supervised vision моделях был жёсткий трейдофф. Модели для картинок отлично схватывают локальную геометрию (глубину, сегментацию), а видео-модели — глобальную динамику и движение. V-JEPA 2.1 решает эту проблему. Получается единый энкодер, выдающий SOTA результаты как на плотных статических задачах (монокулярная оценка глубины), так и на предиктивных видео-задачах (робототехника, предсказание коротких действий). Это критически важный шаг к надёжным world models для embodied AI.

Для практиков: Теперь можно использовать одно замороженное пространство репрезентаций для оценки монокулярной глубины высокого разрешения, трекинга объектов во времени и предсказания кинематики. Это кардинально упрощает разработку пайплайнов для робототехники.

Выделять фичи тут: https://t.me/gonzo_ML_podcasts/2846

arXiv.org

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

We present V-JEPA 2.1, a family of self-supervised models that learn dense, high-quality visual representations for both images and videos while retaining strong global scene understanding. The...

🔥12👍7❤5🙏1

3.28K views17:37

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.59K views17:38

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.63K views17:38

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👍7

2.64K views17:39

gonzo-обзоры ML статей

Long live RNN!

M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling
Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao
Статья: https://arxiv.org/abs/2603.14360
Ревью: https://arxiviq.substack.com/p/m2-rnn-non-linear-rnns-with-matrix
Код: https://github.com/open-lm-engine/lm-engine
Модель: https://huggingface.co/collections/open-lm-engine/m2rnn

# TL;DR

ЧТО сделали: Авторы представили Matrix-to-Matrix RNN (M²RNN) — новую архитектуру нелинейных рекуррентных нейросетей. Она расширяет традиционное скрытое состояние из плотного вектора в матрицу, которая обновляется через внешнее произведение (outer product), и делает это в сочетании с нелинейностью.

ПОЧЕМУ это важно: Линейные архитектуры класса structured state-space model и механизмы внимания сильно ограничены в теоретической выразительности, особенно в задачах отслеживания состояний детерминированных конечных автоматов. M²RNN полностью решает проблему выразительности. При этом архитектура обходит серьёзные штрафы к утилизации оборудования, исторически свойственные нелинейным RNN. Получается масштабируемый и выразительный готовый слой (drop-in replacement) для современных гибридных сетей.

Для практиков: Главный инсайт для команд предобучения: низкие результаты нелинейных RNN (типа LSTM или GRU) в языковом моделировании были проблемой ёмкости состояния, а не фундаментальным изъяном самой нелинейности. Соединив матричное скрытое состояние с зависящим от входа гейтом забывания (forget gate), M²RNN достигает отличного извлечения фактов на длинном контексте и идеальной обобщающей способности по длине. Если аккуратно вставить хотя бы один слой M²RNN в гибридную архитектуру, можно получить значительное снижение перплексии и рост точности на даунстрим-задачах почти без падения пропускной способности.

Изучать матричное состояние тут: https://t.me/gonzo_ML_podcasts/2861

arXiv.org

M$^2$RNN: Non-Linear RNNs with Matrix-Valued States for Scalable...

Transformers are highly parallel but are limited to computations in the TC$^0$ complexity class, excluding tasks such as entity tracking and code execution that provably require greater expressive...

❤13👍5🤔3

2.57K views12:52

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.13K views12:52

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.27K views12:52

gonzo-обзоры ML статей