Data Portal | DS & ML

Десять лет мы увеличивали ширину и глубину моделей — но почти не меняли то, как слои *взаимодействуют* между собой.

Со времён ResNet с x + F(x) в 2015 году глубинная остаточная связь остаётся единственным каналом межслойной коммуникации.

На бумаге модели выглядят глубокими. Но многие слои «учатся молчать»: по мере накопления информации сигнал размывается и теряется.

Узкое место — не вычисления *внутри* слоёв, а коммуникация *между* ними.

Все предыдущие подходы — DenseNet, DenseFormer, Hyper-Connections, MUDDFormer — отвечают на один и тот же вопрос: «как лучше *смешивать* выходы слоёв?»

Лучшие коэффициенты. Больше каналов. Адаптивные веса.

Но всё это — накопление. И это категориальная ошибка.

Межслойная коммуникация должна быть извлечением, а не накоплением.

Запрос = «что мне нужно».
Ключ = «что у меня есть».
Обе стороны участвуют.

Слой 152 не должен «напрягаться», чтобы услышать слой 3 в общем хоре. Он должен просто обратиться к нему: «что ты сказал?»

Проблема: наивная реализация внимания по глубине занимала 44 924 мс на прямой и обратный проход. Слишком медленно.

Представлен Flash Depth Attention (FDA) — аппаратно-эффективное ядро, ускоряющее внимание по глубине более чем в 40 000 раз, делая полноценное извлечение по глубине пригодным для масштабного обучения.

Классический пайплайн трансформера: остаточные связи → последовательное внимание → остаточные связи → полносвязный слой.

Пайплайн с Flash Depth Attention (FDA): внимание по глубине → последовательное внимание → внимание по глубине → полносвязный слой.

Дальше — Mixture-of-Depths Attention (MoDA): объединение извлечения по глубине и по последовательности в один softmax.

Каждая голова одновременно обращается к KV текущего слоя (по последовательности) и к KV всех предыдущих слоёв (по глубине).

Одна операция, два измерения извлечения.

Результаты: модель активно использует межслойное извлечение, эффект «attention sink» исчезает, MoDA улучшает базовую модель OLMo2 по всем метрикам.

Первая половина развития архитектур была про масштабирование компонентов.
Вторая — про масштабирование *коммуникации*.

Добро пожаловать во вторую половину 👋

Статья: https://arxiv.org/abs/2603.15619
Блог (рекомендуется): https://lh-zhu.github.io/The-Second-Half-of-Model-Architecture/
Код: https://github.com/hustvl/MoDA

👉

@DataSciencegx

Please open Telegram to view this post