🐍 Вышла новая модель из серии Mamba - Mamba-3.
Гибридные архитектуры становятся всё популярнее, поэтому всё больше внимания уделяется созданию следующего поколения линейных моделей.
В Mamba-3 исследователи предложили несколько новых идей вокруг SSM (state space models), которые заметно увеличивают способность модели обучаться без потери скорости.
В результате Mamba-3 показывает более высокую производительность, чем предыдущие линейные модели, включая:
- Mamba-2
- Gated DeltaNet
Причём улучшения наблюдаются во всех размерах моделей.
Интересный факт:
это первая версия Mamba, созданная студентами.
Основные авторы проекта:
- Aakash Lahoti
- Kevin Li
- Berlin Chen
- Caitlin Weng
- Tri Dao
Что нового в Mamba-3:
1. Улучшенная дискретизация SSM
Предложена новая схема дискретизации, которая лучше имитирует свёртку (convolution) и делает модель более выразительной.
Она также позволила избавиться от short convolution, который раньше использовался в линейных моделях.
2. Комплексные переходы состояний
Переходы состояний теперь используют комплексные числа, что значительно улучшает способность модели отслеживать состояние.
Это решает проблемы предыдущих версий Mamba, которые, например, не могли решать даже некоторые простые задачи вроде bit parity.
3. Архитектура MIMO вместо SISO
Модель перешла от структуры SISO (single input single output) к MIMO (multiple input multiple output).
Это позволяет лучше использовать железо при inference, что даёт дополнительный прирост производительности.
Также архитектура была немного обновлена и стала ближе к современным языковым моделям.
Например, добавлены компоненты вроде BC / QK normalization.
Mamba-3 заметно усиливает линейные модели и делает их ещё более конкурентными с трансформерами, особенно в задачах языкового моделирования.
Paper: https://arxiv.org/abs/2603.15569
Code: https://github.com/state-spaces/mamba
Blog: https://goombalab.github.io/blog/2026/mamba3-part1/
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Гибридные архитектуры становятся всё популярнее, поэтому всё больше внимания уделяется созданию следующего поколения линейных моделей.
В Mamba-3 исследователи предложили несколько новых идей вокруг SSM (state space models), которые заметно увеличивают способность модели обучаться без потери скорости.
В результате Mamba-3 показывает более высокую производительность, чем предыдущие линейные модели, включая:
- Mamba-2
- Gated DeltaNet
Причём улучшения наблюдаются во всех размерах моделей.
Интересный факт:
это первая версия Mamba, созданная студентами.
Основные авторы проекта:
- Aakash Lahoti
- Kevin Li
- Berlin Chen
- Caitlin Weng
- Tri Dao
Что нового в Mamba-3:
1. Улучшенная дискретизация SSM
Предложена новая схема дискретизации, которая лучше имитирует свёртку (convolution) и делает модель более выразительной.
Она также позволила избавиться от short convolution, который раньше использовался в линейных моделях.
2. Комплексные переходы состояний
Переходы состояний теперь используют комплексные числа, что значительно улучшает способность модели отслеживать состояние.
Это решает проблемы предыдущих версий Mamba, которые, например, не могли решать даже некоторые простые задачи вроде bit parity.
3. Архитектура MIMO вместо SISO
Модель перешла от структуры SISO (single input single output) к MIMO (multiple input multiple output).
Это позволяет лучше использовать железо при inference, что даёт дополнительный прирост производительности.
Также архитектура была немного обновлена и стала ближе к современным языковым моделям.
Например, добавлены компоненты вроде BC / QK normalization.
Mamba-3 заметно усиливает линейные модели и делает их ещё более конкурентными с трансформерами, особенно в задачах языкового моделирования.
Paper: https://arxiv.org/abs/2603.15569
Code: https://github.com/state-spaces/mamba
Blog: https://goombalab.github.io/blog/2026/mamba3-part1/
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
👍9🔥4❤3
Alibaba выпустила open-source фреймворк, который похож на смесь OpenClaw и Claude Cowork 🤯
Что он умеет:
• долгосрочная память (long-term memory)
• может работать локально через Ollama
• поддерживает бесплатные модели, например Qwen 3.5
• self-hosting, система skills и многое другое
Ссылка:
https://github.com/agentscope-ai/CoPaw
Что он умеет:
• долгосрочная память (long-term memory)
• может работать локально через Ollama
• поддерживает бесплатные модели, например Qwen 3.5
• self-hosting, система skills и многое другое
Ссылка:
https://github.com/agentscope-ai/CoPaw
👍15❤5😍3
Вот это комбо: ты, команда SberAds и шанс получить приглашение в Сбер за один день! ⚡️
28 марта Сбер устраивает One Day Offer* для Data Scientists**, готовых перевести эффективность SberAds, качество и релевантность показываемой рекламы на новый уровень.
Если ты хочешь работать над созданием и улучшением моделей для аукционов и свободно ориентируешься в Python, Go, S3, Spark — регистрируйся на One Day Offer*.
У тебя будет 8000+ коллег — масштабно, правда? Успей занять место в команде мечты!
* One Day Offer — предложение о работе за один день.
** Data Scientists — исследователи данных.
28 марта Сбер устраивает One Day Offer* для Data Scientists**, готовых перевести эффективность SberAds, качество и релевантность показываемой рекламы на новый уровень.
Если ты хочешь работать над созданием и улучшением моделей для аукционов и свободно ориентируешься в Python, Go, S3, Spark — регистрируйся на One Day Offer*.
У тебя будет 8000+ коллег — масштабно, правда? Успей занять место в команде мечты!
* One Day Offer — предложение о работе за один день.
** Data Scientists — исследователи данных.
👍5
⚡️ Вышла новая модель Minimax M2.7 и релиз получился очень мощным.
Что интересного:
• 🧠 Self-evolving модель
M2.7 — одна из первых моделей, которая помогала улучшать саму себя.
Во время RL-обучения она запускала 100+ автономных циклов оптимизации, что дало около 30% внутреннего улучшения.
• 💻 Крутые результаты в кодинге
— 56.2% на SWE-Pro (почти уровень Claude Opus 4.6)
— 55.6% на VIBE-Pro
— может находить и исправлять production-баги менее чем за 3 минуты
• 🔬 Агент для ML-исследований
— 66.6% medal rate на MLE Bench Lite
— фактически на уровне Gemini 3.1 в задачах ML-исследований.
• 📊 Офисная и аналитическая работа
— ELO 1495 на GDPval-AA (лучший open-source результат)
— 97% точность выполнения задач
— может делать полный аналитический workflow:
анализ данных → отчёт → модель → презентация.
• 🤖 Нативная multi-agent архитектура
Модель изначально рассчитана на работу нескольких агентов вместе.
• 🎭 OpenRoom
Новый open-source демо-проект с интерактивными AI-персонажами, которые могут взаимодействовать друг с другом.
https://www.minimax.io/news/minimax-m27-en
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Что интересного:
• 🧠 Self-evolving модель
M2.7 — одна из первых моделей, которая помогала улучшать саму себя.
Во время RL-обучения она запускала 100+ автономных циклов оптимизации, что дало около 30% внутреннего улучшения.
• 💻 Крутые результаты в кодинге
— 56.2% на SWE-Pro (почти уровень Claude Opus 4.6)
— 55.6% на VIBE-Pro
— может находить и исправлять production-баги менее чем за 3 минуты
• 🔬 Агент для ML-исследований
— 66.6% medal rate на MLE Bench Lite
— фактически на уровне Gemini 3.1 в задачах ML-исследований.
• 📊 Офисная и аналитическая работа
— ELO 1495 на GDPval-AA (лучший open-source результат)
— 97% точность выполнения задач
— может делать полный аналитический workflow:
анализ данных → отчёт → модель → презентация.
• 🤖 Нативная multi-agent архитектура
Модель изначально рассчитана на работу нескольких агентов вместе.
• 🎭 OpenRoom
Новый open-source демо-проект с интерактивными AI-персонажами, которые могут взаимодействовать друг с другом.
https://www.minimax.io/news/minimax-m27-en
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
👍13🔥8❤3🍌2
⚡️ Загадочная модель Hunter Alpha появилась в сети и уже наделала много шума
По данным Reuters, на OpenRouter внезапно обнаружили новую ИИ-модель под названием Hunter Alpha.
И самое интересное - это может быть не просто ноунейм 👇
Есть слухи, что это скрытая тестовая версия DeepSeek V4.
Что известно на данный момент:
- около 1 триллиона параметров
- контекст до 1 миллиона токенов
- стиль рассуждений очень похож на chain-of-thought, как у DeepSeek
Во время тестирования модель сама указала:
- обучалась преимущественно на китайских данных
- knowledge cutoff — май 2025
И это практически полностью совпадает с тем, что ранее заявляли про DeepSeek.
Что это может быть:
👉 ранний тест перед релизом
👉 “тихий” запуск без анонса
👉 или хорошо замаскированная модель
Но главное здесь другое:
рынок снова движется в сторону
гигантских моделей + длинного контекста + сильного reasoning
И если это действительно DeepSeek V4 -
нас ждёт новый скачок в возможностях ИИ.
👉 https://www.reuters.com/business/media-telecom/mystery-ai-model-has-developers-buzzing-is-this-deepseeks-latest-blockbuster-2026-03-18/
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
По данным Reuters, на OpenRouter внезапно обнаружили новую ИИ-модель под названием Hunter Alpha.
И самое интересное - это может быть не просто ноунейм 👇
Есть слухи, что это скрытая тестовая версия DeepSeek V4.
Что известно на данный момент:
- около 1 триллиона параметров
- контекст до 1 миллиона токенов
- стиль рассуждений очень похож на chain-of-thought, как у DeepSeek
Во время тестирования модель сама указала:
- обучалась преимущественно на китайских данных
- knowledge cutoff — май 2025
И это практически полностью совпадает с тем, что ранее заявляли про DeepSeek.
Что это может быть:
👉 ранний тест перед релизом
👉 “тихий” запуск без анонса
👉 или хорошо замаскированная модель
Но главное здесь другое:
рынок снова движется в сторону
гигантских моделей + длинного контекста + сильного reasoning
И если это действительно DeepSeek V4 -
нас ждёт новый скачок в возможностях ИИ.
👉 https://www.reuters.com/business/media-telecom/mystery-ai-model-has-developers-buzzing-is-this-deepseeks-latest-blockbuster-2026-03-18/
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
👍9❤8🔥3
Forwarded from Machinelearning
Флагман. Триллион параметров суммарно, 42 млрд. активных при инференсе, архитектура MoE с гибридным вниманием и контекстным окном в 1 миллион токенов. До официального анонса модель тестировалась на OpenRouter под именем Hunter Alpha.
Реальная агентская эффективность на GDPval-AA: Elo 1434 (лучший результат среди китайских моделей).
Цена API: $1 вход / $3 выход за млн. токенов при контексте 256K и $2 вход / $6 выход для контекста 256К-1М.
Принимает текст, изображения, видео и аудио через единую базу с отдельными энкодерами для каждой модальности. Параметры не раскрыты. Модель поддерживает непрерывную обработку аудио длиной свыше 10 часов в одном запросе.
Цена: $0,40 вход / $2,00 выход.
На демонстрации модель прошла цикл онлайн-покупки автономно: нашла отзывы на Xiaohongshu, сравнила продавцов на JD.com, поторговалась с поддержкой, оформила заказ.
Второе демо: получила одно текстовое задание, сняла 15-секундный ролик из 4 сцен, синтезировала звук, исправила ошибку рендеринга шрифта, загрузила на TikTok и опубликовала.
Модель обучена на сотнях миллионов часов аудио, и допилена через многомерный RL. Синтезирует речь с управлением эмоциями на уровне отдельных предложений, поёт с сохранением высоты и ритма, воспроизводит китайские диалекты: сычуаньский, хэнаньский, кантонский, тайваньский. Поддержка других языков не заявлена.
Форматные маркеры в тексте: пунктуацию, частицы и выделение сама переводит в просодику без дополнительной разметки.
Доступ на ограниченный период - бесплатно. Сроки предложения не указаны.
Кстати, команду MiMo возглавляет Ло Фули, один из ключевых авторов DeepSeek R1.
Все модели релиза доступны через API на platform.xiaomimimo.com и в MiMo Studio.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4
⚠️ Отчёты выглядят убедительно. Графики растут. Решения принимаются быстро. Но один вопрос может обрушить всю картину: насколько качественные ваши данные?
Проблема плохих данных редко заметна сразу. Она проявляется позже — в сломанных маркетинговых акциях, ошибках кредитного скоринга, неверных управленческих решениях и потерянной прибыли.
👨💻 На открытом уроке 1 апреля в 20:00 МСК разберём, как на практике выявлять проблемы в данных и предотвращать их последствия. Вы узнаете, что такое Data Quality, какие 6 ключевых метрик качества данных используют международные стандарты, и как автоматизировать контроль данных с помощью современных инструментов. На занятии проведём экспресс-аудит данных на реальном примере и покажем, как находить ошибки, которые напрямую влияют на бизнес-показатели.
➡️ Открытый урок проходит в преддверии старта курса «Качество данных / Data Quality». Принять участие: https://tglink.io/f683f51a044aad?erid=2W5zFHtJhRT
#реклама
О рекламодателе
Проблема плохих данных редко заметна сразу. Она проявляется позже — в сломанных маркетинговых акциях, ошибках кредитного скоринга, неверных управленческих решениях и потерянной прибыли.
👨💻 На открытом уроке 1 апреля в 20:00 МСК разберём, как на практике выявлять проблемы в данных и предотвращать их последствия. Вы узнаете, что такое Data Quality, какие 6 ключевых метрик качества данных используют международные стандарты, и как автоматизировать контроль данных с помощью современных инструментов. На занятии проведём экспресс-аудит данных на реальном примере и покажем, как находить ошибки, которые напрямую влияют на бизнес-показатели.
➡️ Открытый урок проходит в преддверии старта курса «Качество данных / Data Quality». Принять участие: https://tglink.io/f683f51a044aad?erid=2W5zFHtJhRT
#реклама
О рекламодателе
❤2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Runway представила серьёзный прорыв в генерации видео с помощью ИИ на конференции NVIDIA GTC.
Компания показала новую модель, способную генерировать видео в высоком разрешении в настоящем реальном времени.
Ключевая фишка — time-to-first-frame менее 100 мс.
Это значит, что HD-видео начинает генерироваться и воспроизводиться практически мгновенно после команды.
Этот превью-ресёрч был разработан совместно с NVIDIA и работает на их новой архитектуре Vera Rubin.
Такая скорость — важный шаг к созданию General World Model (GWM-1) от Runway.
Технология выходит за рамки обычной генерации видео и движется в сторону живых, интерактивных сред в реальном времени.
https://x.com/runwayml/status/2034284298769985914
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Компания показала новую модель, способную генерировать видео в высоком разрешении в настоящем реальном времени.
Ключевая фишка — time-to-first-frame менее 100 мс.
Это значит, что HD-видео начинает генерироваться и воспроизводиться практически мгновенно после команды.
Этот превью-ресёрч был разработан совместно с NVIDIA и работает на их новой архитектуре Vera Rubin.
Такая скорость — важный шаг к созданию General World Model (GWM-1) от Runway.
Технология выходит за рамки обычной генерации видео и движется в сторону живых, интерактивных сред в реальном времени.
https://x.com/runwayml/status/2034284298769985914
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
👍11🔥7❤4
Data Science и Data Engineering: какое направление выбрать в 2026 году?
🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.
Подключайтесь онлайн 1 апреля в 19:00 мск.
🏃♀️ Записаться на ДОД
На встрече обсудят:💙 как рост ИИ трансформируют рынок труда💙 4 трека для развития: ML, CV, NLP и Data Engineering💙 какие задачи усложняются и где усиливается конкуренция
И расскажут, как за 2 года освоить фундаментальную базу, собрать портфолио из проектов и получить диплом магистра без отрыва от работы.
Подключайтесь онлайн 1 апреля в 19:00 мск.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3❤2
Разбор рынка ПО: от структуры до методологий
Рынок ПО сегодня — это сочетание облачных решений, on-premise-инфраструктуры и быстро растущих сегментов вроде ИИ и ИБ. Это делает его сложнее не только для анализа, но и для интерпретации.
На вебинаре разберут, как меняется структура рынка в России и мире, как распределяются роли между игроками и какие модели развития выглядят устойчивыми. Отдельный блок посвятят аналитике: почему отчёты дают разные цифры и как это связано с подходами к подсчёту.
📍 25 марта в 12:00 (МСК) — онлайн
Спикеры — представители Apple Hills Digital, iKS-Consulting, Yandex Cloud и JP Innovative.
Регистрируйтесь, чтобы получить целостное понимание рынка, а не набор разрозненных оценок
Рынок ПО сегодня — это сочетание облачных решений, on-premise-инфраструктуры и быстро растущих сегментов вроде ИИ и ИБ. Это делает его сложнее не только для анализа, но и для интерпретации.
На вебинаре разберут, как меняется структура рынка в России и мире, как распределяются роли между игроками и какие модели развития выглядят устойчивыми. Отдельный блок посвятят аналитике: почему отчёты дают разные цифры и как это связано с подходами к подсчёту.
📍 25 марта в 12:00 (МСК) — онлайн
Спикеры — представители Apple Hills Digital, iKS-Consulting, Yandex Cloud и JP Innovative.
Регистрируйтесь, чтобы получить целостное понимание рынка, а не набор разрозненных оценок
❤2
🤖 Claude-to-IM Skill: AI Coding Agent for IM Platforms
Этот репозиторий предоставляет мост между Claude Code/Codex и популярными мессенджерами, такими как Telegram, Discord, Feishu и QQ. Пользователи могут взаимодействовать с AI-агентами для программирования через удобный интерфейс, получая ответы в реальном времени.
🚀 Основные моменты:
- Поддержка четырех платформ: Telegram, Discord, Feishu, QQ
- Интерактивная настройка с пошаговыми инструкциями
- Контроль разрешений на использование инструментов
- Возможность просмотра ответов в реальном времени
- Сохранение сессий после перезапуска
📌 GitHub: https://github.com/op7418/Claude-to-IM-skill
#javascript
Этот репозиторий предоставляет мост между Claude Code/Codex и популярными мессенджерами, такими как Telegram, Discord, Feishu и QQ. Пользователи могут взаимодействовать с AI-агентами для программирования через удобный интерфейс, получая ответы в реальном времени.
🚀 Основные моменты:
- Поддержка четырех платформ: Telegram, Discord, Feishu, QQ
- Интерактивная настройка с пошаговыми инструкциями
- Контроль разрешений на использование инструментов
- Возможность просмотра ответов в реальном времени
- Сохранение сессий после перезапуска
📌 GitHub: https://github.com/op7418/Claude-to-IM-skill
#javascript