🚀 Китайский ИИ нового уровня: Alibaba представляет революционную архитектуру Qwen3-Next
Китайская компания Alibaba представила новое поколение своей языковой модели — Qwen3-Next. Новая архитектура обещает резкий скачок в эффективности: модель с 80 миллиардами параметров активирует для ответа лишь 3 миллиарда, сохраняя высочайшее качество и обгоняя конкурентов вроде Gemini-2.5-Flash.
🚀 Рекордная эффективность
• Обучение: Потребовалось менее 10% вычислительных ресурсов (GPU Hours) от предшественника Qwen3-32B при сопоставимом качестве.
• Инференс: Скорость обработки длинных контекстов (свыше 32k токенов) выросла более чем в 10 раз.
🧠 Ключевые инновации:
• Гибридное внимание: Сочетает линейное (быстрое) и стандартное (точное) внимание для баланса скорости и качества.
• Сверхразреженная MoE-структура: Из 512 «экспертов» для каждого запроса выбирается всего 10 + 1 общий. Это экономит ресурсы.
• Предсказание нескольких токенов(MTP): Модель предугадывает несколько слов вперед, что ускоряет генерацию.
• Повышенная стабильность обучения: Новые методы нормирования и инициализации сделали процесс надежнее.
⚙️ Технические детали
Архитектура представляет собой смесь
📊 Выпущены три версии модели
• Base: Для дальнейшего дообучения и исследований.
• Instruct: По производительности сравнима с гигантской флагманской Qwen3-235B, но значительно эффективнее в работе с длинными контекстами (до 256K).
• Thinking: Специализированная модель для сложных рассуждений, которая обгоняет закрытый Gemini-2.5-Flash-Thinking и приближается к топовой Qwen3-235B.
✅ Вывод
Qwen3-Next — это не просто эволюционное обновление, а стратегический шаг, переопределяющий баланс между размером модели, стоимостью обучения и скоростью работы. Архитектура открыта, что позволяет всему сообществу строить на её основе ещё более мощные приложения.
Сайт | HuggingFace
#КитайскийИИ #КитайAI #Qwen3Next #AlibabaAI #MoE #ИИархитектура #LLM
Китайская компания Alibaba представила новое поколение своей языковой модели — Qwen3-Next. Новая архитектура обещает резкий скачок в эффективности: модель с 80 миллиардами параметров активирует для ответа лишь 3 миллиарда, сохраняя высочайшее качество и обгоняя конкурентов вроде Gemini-2.5-Flash.
🚀 Рекордная эффективность
• Обучение: Потребовалось менее 10% вычислительных ресурсов (GPU Hours) от предшественника Qwen3-32B при сопоставимом качестве.
• Инференс: Скорость обработки длинных контекстов (свыше 32k токенов) выросла более чем в 10 раз.
🧠 Ключевые инновации:
• Гибридное внимание: Сочетает линейное (быстрое) и стандартное (точное) внимание для баланса скорости и качества.
• Сверхразреженная MoE-структура: Из 512 «экспертов» для каждого запроса выбирается всего 10 + 1 общий. Это экономит ресурсы.
• Предсказание нескольких токенов(MTP): Модель предугадывает несколько слов вперед, что ускоряет генерацию.
• Повышенная стабильность обучения: Новые методы нормирования и инициализации сделали процесс надежнее.
⚙️ Технические детали
Архитектура представляет собой смесь
Gated DeltaNet (75% слоев) для эффективного моделирования длинных последовательностей и стандартного Gated Attention (25% слоев) для высокой точности. Это позволило превзойти по качеству Mamba2 и sliding window attention. Для стабилизации тренировки внедрены Zero-Centered RMSNorm и нормализация весов маршрутизатора в MoE.📊 Выпущены три версии модели
• Base: Для дальнейшего дообучения и исследований.
• Instruct: По производительности сравнима с гигантской флагманской Qwen3-235B, но значительно эффективнее в работе с длинными контекстами (до 256K).
• Thinking: Специализированная модель для сложных рассуждений, которая обгоняет закрытый Gemini-2.5-Flash-Thinking и приближается к топовой Qwen3-235B.
✅ Вывод
Qwen3-Next — это не просто эволюционное обновление, а стратегический шаг, переопределяющий баланс между размером модели, стоимостью обучения и скоростью работы. Архитектура открыта, что позволяет всему сообществу строить на её основе ещё более мощные приложения.
Сайт | HuggingFace
#КитайскийИИ #КитайAI #Qwen3Next #AlibabaAI #MoE #ИИархитектура #LLM
chat.qwen.ai
Qwen Chat
Qwen Chat offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.
🚀 Новая китайская модель LongCat-Flash-Thinking
🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.
⚡ Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на 64,5% меньше токенов( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.
⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.
📊 Бенчмарки:
- Лидирует в tool use (τ²-Bench, VitaBench)
- Хорошие результаты по instruction following (IFEval, COLLIE, Meeseeks-zh).
Китайцы стабильно удерживают лидерство в reasoning-моделях.
🟠 HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.
⚡ Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на 64,5% меньше токенов( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.
⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.
📊 Бенчмарки:
- Лидирует в tool use (τ²-Bench, VitaBench)
- Хорошие результаты по instruction following (IFEval, COLLIE, Meeseeks-zh).
Китайцы стабильно удерживают лидерство в reasoning-моделях.
#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
meituan-longcat/LongCat-Flash-Thinking · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.