gonzo-обзоры ML статей

Long live RNN!

M2RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling
Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao
Статья: https://arxiv.org/abs/2603.14360
Ревью: https://arxiviq.substack.com/p/m2-rnn-non-linear-rnns-with-matrix
Код: https://github.com/open-lm-engine/lm-engine
Модель: https://huggingface.co/collections/open-lm-engine/m2rnn

# TL;DR

ЧТО сделали: Авторы представили Matrix-to-Matrix RNN (M²RNN) — новую архитектуру нелинейных рекуррентных нейросетей. Она расширяет традиционное скрытое состояние из плотного вектора в матрицу, которая обновляется через внешнее произведение (outer product), и делает это в сочетании с нелинейностью.

ПОЧЕМУ это важно: Линейные архитектуры класса structured state-space model и механизмы внимания сильно ограничены в теоретической выразительности, особенно в задачах отслеживания состояний детерминированных конечных автоматов. M²RNN полностью решает проблему выразительности. При этом архитектура обходит серьёзные штрафы к утилизации оборудования, исторически свойственные нелинейным RNN. Получается масштабируемый и выразительный готовый слой (drop-in replacement) для современных гибридных сетей.

Для практиков: Главный инсайт для команд предобучения: низкие результаты нелинейных RNN (типа LSTM или GRU) в языковом моделировании были проблемой ёмкости состояния, а не фундаментальным изъяном самой нелинейности. Соединив матричное скрытое состояние с зависящим от входа гейтом забывания (forget gate), M²RNN достигает отличного извлечения фактов на длинном контексте и идеальной обобщающей способности по длине. Если аккуратно вставить хотя бы один слой M²RNN в гибридную архитектуру, можно получить значительное снижение перплексии и рост точности на даунстрим-задачах почти без падения пропускной способности.

Изучать матричное состояние тут: https://t.me/gonzo_ML_podcasts/2861

arXiv.org

M$^2$RNN: Non-Linear RNNs with Matrix-Valued States for Scalable...

Transformers are highly parallel but are limited to computations in the TC$^0$ complexity class, excluding tasks such as entity tracking and code execution that provably require greater expressive...

❤13👍5🤔3

2.61K views12:52

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.15K views12:52

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.3K views12:52

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.38K views12:52

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.48K views12:52

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.61K views12:53

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

🔥3

2.82K views12:53

gonzo-обзоры ML статей

Для разнообразия что-нибудь воскресное и не про ML. Вы первые, кто это видит :)

Завтра новая неделя, и для тех, кому после тяжёлого трудового дня хочется всех замочить, мы вместе с Клод кодом сделали простую браузерную игру, где можно делать это безопасно:

https://cloud-heavy-industries.com/grumbulus/

Мочите на здоровье!

🔥9😁9❤1

3.24K views15:13

gonzo-обзоры ML статей

👾1

3.18K views15:14

gonzo-обзоры ML статей

Чтение на неделю:

https://www.robonaissance.com/t/language-is-poison

Robonaissance

Robonaissance | Hugo | Substack

A new renaissance in AI and robotics. Independent research and analysis to make sense of the intelligence revolution. Click to read Robonaissance, by Hugo, a Substack publication. Launched 3 months ago.

❤5👍3🔥1

11.6K views18:08

gonzo-обзоры ML статей

Бомбическая работа просто! Не понимаю, почему про неё никто вокруг не говорит, почему-то принесло только в мои личные сети.

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
Yulu Gan, Phillip Isola
Paper: https://arxiv.org/abs/2603.12228
Code: https://github.com/sunrainyg/RandOpt
Review: https://arxiviq.substack.com/p/neural-thickets-diverse-task-experts

# TL;DR

ЧТО сделали: Авторы предложили полностью параллельный безградиентный алгоритм RandOpt для post-training. Он улучшает предобученные большие языковые модели (LLM) путём простого сэмплирования случайного гауссовского шума поверх весов, оценки этих зашумлённых моделей и ансамблирования предсказаний лучших из них.

ПОЧЕМУ это важно: Работа ставит под сомнение устоявшееся мнение, что выравнивание (alignment) языковых моделей строго требует сложной последовательной оптимизации вроде обучения с подкреплением. Исследование раскрывает структурный феномен «нейронных дебрей» (neural thickets). Оказывается, при достаточном масштабе предобученная модель работает как распределение, в непосредственной окрестности весов которого плотно упакованы разнообразные эксперты под конкретные задачи.

Погружаться в дебри тут: https://t.me/gonzo_ML_podcasts/2879

arXiv.org

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Pretraining produces a learned parameter vector that is typically treated as a starting point for further iterative adaptation. In this work, we instead view the outcome of pretraining as a...

👍15🔥8❤6

2.79K views17:22

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.02K views17:22

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.98K views17:22

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.95K views17:23

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.03K views17:23

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.12K views17:23

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.09K views17:23

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.23K views17:23

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.35K views17:23

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👍12

2.4K views17:23

gonzo-обзоры ML статей

На LeJEPA построили модель мира LeWM.

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero
Paper: https://arxiv.org/abs/2603.19312
Review: https://arxiviq.substack.com/p/leworldmodel-stable-end-to-end-joint
Code: https://github.com/lucas-maes/le-wm
Model: https://drive.google.com/drive/folders/1r31os0d4-rR0mdHc7OlY_e5nh3XT4r4e
Website: https://le-wm.github.io

# TL;DR

ЧТО сделали: Авторы представляют LeWorldModel (LeWM) — end-to-end архитектуру JEPA, которая выучивает модель мира напрямую из сырых пикселей. Метод решает известную проблему коллапса репрезентаций с помощью лаконичного лосса (функции потерь) из двух слагаемых: стандартной среднеквадратичной ошибки для предсказания во времени и легко масштабируемой регуляризации, принуждающей латентные эмбеддинги распределяться по изотропному гауссиану.

ПОЧЕМУ это важно: Подход избавляет от хрупких архитектурных эвристик — таких как stop-gradients, экспоненциальные скользящие средние или многокомпонентные лоссы, — которые обычно нужны для стабилизации моделей мира в парадигме self-supervised learning. Сводя всю регуляризацию к одному гиперпараметру, фреймворк добивается стабильного обучения на одном GPU за несколько часов. Полученная модель способна планировать до 48 раз быстрее альтернатив на базе фундаментальных моделей, демонстрируя при этом zero-shot понимание интуитивной физики.

Для практиков: Для инженеров и исследователей, создающих масштабируемых агентов для робототехники или систем планирования, статья доказывает: стабильные модели мира не обязательно требуют предобученных визуальных энкодеров или сложной балансировки оптимизатора. Заставив распределения эмбеддингов математически соответствовать гауссовской топологии, модели могут органично выучивать структурированные, полезные для действий репрезентации прямо из офлайн-данных. Это снижает порог по вычислительным ресурсам для задач на физическое рассуждение.

Моделировать мир тут: https://t.me/gonzo_ML_podcasts/2895

arXiv.org

LeWorldModel: Stable End-to-End Joint-Embedding Predictive...

Joint Embedding Predictive Architectures (JEPAs) offer a compelling framework for learning world models in compact latent spaces, yet existing methods remain fragile, relying on complex multi-term...

😁11👍10🤝1

2.4K views12:15

About

Blog

Apps

Platform