DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers.

Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами. 

Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени. 

📘 Краткие эускурс: 
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention. 
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU. 
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию

Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.

🧠 Что изменилось под капотом: 

- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки). 

- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU. 

⚙️ Что это даёт на практике: 
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды. 

- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи. 

- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака. 

Mamba-3 - это не просто ускоренная альтернатива Transformers. 

Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств. 

🟢 Подробности: https://openreview.net/pdf?id=HwCvaJOiCj

@ai_machinelearning_big_data


#ssm #mamba3  #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3