Alibaba представляет обновленную AI модель Tongyi Qianwen 2.0
- Alibaba выпустила новую версию своей искусственной интеллектуальной модели Tongyi Qianwen 2.0.
- Это значительное обновление предыдущей модели и представляет внушительные возможности в понимании сложных инструкций, копирайтинге, концептуальном мышлении, запоминании и предотвращении проблемы "галлюцинаций" AI (неверной информации).
- Alibaba также представила специализированные AI модели для различных отраслей - юридического совета, финансов и др.
- Компания представила GenAI Service Platform, которая позволяет компаниям создавать собственные приложения AI, используя собственные данные.
Теперь процесс и инструменты создания AI приложений станут еще более доступными и безопасными для отраслевых компаний.
#Alibaba #AI #TongyiQianwen2.0
https://www.alibabacloud.com/solutions/generative-ai
- Alibaba выпустила новую версию своей искусственной интеллектуальной модели Tongyi Qianwen 2.0.
- Это значительное обновление предыдущей модели и представляет внушительные возможности в понимании сложных инструкций, копирайтинге, концептуальном мышлении, запоминании и предотвращении проблемы "галлюцинаций" AI (неверной информации).
- Alibaba также представила специализированные AI модели для различных отраслей - юридического совета, финансов и др.
- Компания представила GenAI Service Platform, которая позволяет компаниям создавать собственные приложения AI, используя собственные данные.
Теперь процесс и инструменты создания AI приложений станут еще более доступными и безопасными для отраслевых компаний.
#Alibaba #AI #TongyiQianwen2.0
https://www.alibabacloud.com/solutions/generative-ai
CNBC
Chinese tech giant Alibaba launches upgraded AI model to challenge Microsoft, Amazon
Alibaba announced Tongyi Qianwen 2.0, its latest large language model, as the Chinese giant looks to compete with U.S. rivals like Amazon and Microsoft.
Alibaba впереди: новая модель AI обходит конкурентов
Китайский техногигант Alibaba представил модель AI Qwen 1.5, которая превзошла ChatGPT и Claude.
В бенчмарке MT-bench Qwen 1.5 опередил Claude-2.1 и версии GPT-4.
В Alapaca-Eval, Qwen 1.5 уступает только GPT-4 Turbo и Yi-34B от HuggingFace.
Модель с открытым исходным кодом поддерживается мощными вычислительными ресурсами Alibaba.
#Alibaba #China #Qwen1_5
Китайский техногигант Alibaba представил модель AI Qwen 1.5, которая превзошла ChatGPT и Claude.
В бенчмарке MT-bench Qwen 1.5 опередил Claude-2.1 и версии GPT-4.
В Alapaca-Eval, Qwen 1.5 уступает только GPT-4 Turbo и Yi-34B от HuggingFace.
Модель с открытым исходным кодом поддерживается мощными вычислительными ресурсами Alibaba.
#Alibaba #China #Qwen1_5
Alibaba Cloud запускает англоязычный хаб AI-моделей
Китайский гигант Alibaba Cloud представил английскую версию ModelScope - платформы открытых AI-моделей.
Сервис реализует концепцию "Model-as-a-Service", предоставляя доступ к 5000+ передовым моделям и 1500 датасетам.
ModelScope позволяет настраивать, обучать и оценивать модели с минимальным объёмом кода.
Анонс состоялся на CVPR 2024 в Сиэтле, где компания представила 30+ научных работ.
Посетители могли оценить возможности модели Qwen по генерации изображений и видео.
Запуск англоязычной версии - важный шаг в глобальной экспансии AI-сервисов Alibaba Cloud.
Огонь!
https://www.modelscope.cn/home
Полный аналог HuggingFace.
#Alibaba #ModelScope #Qwen
-------
@tsingular
Китайский гигант Alibaba Cloud представил английскую версию ModelScope - платформы открытых AI-моделей.
Сервис реализует концепцию "Model-as-a-Service", предоставляя доступ к 5000+ передовым моделям и 1500 датасетам.
ModelScope позволяет настраивать, обучать и оценивать модели с минимальным объёмом кода.
Анонс состоялся на CVPR 2024 в Сиэтле, где компания представила 30+ научных работ.
Посетители могли оценить возможности модели Qwen по генерации изображений и видео.
Запуск англоязычной версии - важный шаг в глобальной экспансии AI-сервисов Alibaba Cloud.
Огонь!
https://www.modelscope.cn/home
Полный аналог HuggingFace.
#Alibaba #ModelScope #Qwen
-------
@tsingular
Qwen2.5-Coder по тестам в разработке превосходит более тяжелые варианты DeepSeek Code
Qwen2.5-Coder, как был анонс выше, релизнули в вариантах 1.5B и 7B параметров.
Qwen2.5-Coder-1.5B
https://hf.co/qwen/Qwen/Qwen2.5-Coder-1.5B
Qwen2.5-Coder-7B
https://hf.co/qwen/Qwen/Qwen2.5-Coder-7B
И по тестам, получается, что Qwen2.5-Coder лидирует в бенчмарках HumanEval, MBPP, BigCodeBench и MultiPL-E, превосходя более крупные модели.
Показывает интересные результаты в генерации и автодополнении кода, а так же в Text-to-SQL задачах.
И вот не понятно, то ли правда китайские товарищи умудрились упаковать математическую мудрость в столь малый размер или это всё-таки файнтюн под бенчмарк.
В общем, нужно тестить.
Ну и традиционно, Qwen2.5 уже есть в ollama варианте:
ollama run qwen2.5
#Qwen #code #Alibaba #Китай
———
@tsingular
Qwen2.5-Coder, как был анонс выше, релизнули в вариантах 1.5B и 7B параметров.
Qwen2.5-Coder-1.5B
https://hf.co/qwen/Qwen/Qwen2.5-Coder-1.5B
Qwen2.5-Coder-7B
https://hf.co/qwen/Qwen/Qwen2.5-Coder-7B
И по тестам, получается, что Qwen2.5-Coder лидирует в бенчмарках HumanEval, MBPP, BigCodeBench и MultiPL-E, превосходя более крупные модели.
Показывает интересные результаты в генерации и автодополнении кода, а так же в Text-to-SQL задачах.
И вот не понятно, то ли правда китайские товарищи умудрились упаковать математическую мудрость в столь малый размер или это всё-таки файнтюн под бенчмарк.
В общем, нужно тестить.
Ну и традиционно, Qwen2.5 уже есть в ollama варианте:
ollama run qwen2.5
#Qwen #code #Alibaba #Китай
———
@tsingular
Китай: на одного AI-специалиста претендуют 10 компаний
Технологический сектор КНР столкнулся с критической нехваткой AI-экспертов.
На 5 вакансий приходится лишь 2 квалифицированных соискателя.
Базовые зарплаты начинаются от $63,000 в год.
ByteDance, Baidu и Alibaba активно переманивают специалистов друг у друга.
90% местных IT-талантов остаются в стране, снизив отток с 11% до 3%.
Власти внедряют искусственный интеллект в школьную программу и развивают партнёрства вузов с бизнесом.
Похоже, скоро китайские специалисты будут стоить дороже американских 🤑
#ByteDance #Alibaba #Baidu #Китай
-------
@tsingular
Технологический сектор КНР столкнулся с критической нехваткой AI-экспертов.
На 5 вакансий приходится лишь 2 квалифицированных соискателя.
Базовые зарплаты начинаются от $63,000 в год.
ByteDance, Baidu и Alibaba активно переманивают специалистов друг у друга.
90% местных IT-талантов остаются в стране, снизив отток с 11% до 3%.
Власти внедряют искусственный интеллект в школьную программу и развивают партнёрства вузов с бизнесом.
Похоже, скоро китайские специалисты будут стоить дороже американских 🤑
#ByteDance #Alibaba #Baidu #Китай
-------
@tsingular
Alibaba с Qwen2.5-Turbo бъёт рекорды скорости в работе с 1M токенов контекста
Модель Qwen2.5-Turbo демонстрирует 4х кратный рост скорости обработки гигантских объемов текста документов.
Технология sparse attention позволила сжать вычисления в 12.5 раз, обеспечив ускорение обработки в 3.2-4.3 раза.
Система успешно справляется с полными романами (690k токенов), кодовыми базами (133k) и научными статьями (171k).
Производительность сопоставима с GPT-4o-mini и превосходит аналогичные открытые решения.
Кому нужен RAG вообще с таким контекстным окном.. Правда тут Гугл к Новому Году 2млн обещает, - интересно что у них по скорости будет
#Qwen #LongContext #SparseAttention #Китай #Alibaba
-------
@tsingular
Модель Qwen2.5-Turbo демонстрирует 4х кратный рост скорости обработки гигантских объемов текста документов.
Технология sparse attention позволила сжать вычисления в 12.5 раз, обеспечив ускорение обработки в 3.2-4.3 раза.
Система успешно справляется с полными романами (690k токенов), кодовыми базами (133k) и научными статьями (171k).
Производительность сопоставима с GPT-4o-mini и превосходит аналогичные открытые решения.
Кому нужен RAG вообще с таким контекстным окном.. Правда тут Гугл к Новому Году 2млн обещает, - интересно что у них по скорости будет
#Qwen #LongContext #SparseAttention #Китай #Alibaba
-------
@tsingular
Marco-o1: новая LLM от Alibaba с встроенным механизмом рассуждений
Alibaba представила многоязычную модель Marco-o1, созданную на базе Qwen2-7B-Instruct.
Внедрены Chain-of-Thought и Monte Carlo Tree Search для улучшения логических рассуждений.
Показывает рост точности в тестах MGSM: +6.17% для английского и +5.60% для китайского языков.
Модель доступна в GGUF-форматах от 2 до 32 бит с поддержкой ollama, LM Studio и оптимизацией под CPU/GPU.
Специализируется на точных науках, программировании и комплексном решении открытых задач.
Локально поднимаем o1. Дожили 🤓
ollama run hf.co/bartowski/Marco-o1-GGUF
#Alibaba #MarcoO1 #Китай
-------
@tsingular
Alibaba представила многоязычную модель Marco-o1, созданную на базе Qwen2-7B-Instruct.
Внедрены Chain-of-Thought и Monte Carlo Tree Search для улучшения логических рассуждений.
Показывает рост точности в тестах MGSM: +6.17% для английского и +5.60% для китайского языков.
Модель доступна в GGUF-форматах от 2 до 32 бит с поддержкой ollama, LM Studio и оптимизацией под CPU/GPU.
Специализируется на точных науках, программировании и комплексном решении открытых задач.
Локально поднимаем o1. Дожили 🤓
ollama run hf.co/bartowski/Marco-o1-GGUF
#Alibaba #MarcoO1 #Китай
-------
@tsingular
Alibaba выпускает ClearerVoice-Studio: Open-Source фреймворк для обработки звука
Alibaba Speech Lab представили набор инструментов с открытым кодом для обработки речи.
Система интегрирует SOTA-модели для шумоподавления, разделения голосов и выделения целевого спикера.
В основе лежат технологии FRCRN и MossFormer.
Фреймворк включает компоненты для обработки, обучения и оценки качества речи с поддержкой до 48кГц.
Проект доступен на GitHub и в Hugging Face и идет в наборе с готовыми предобученными моделями.
Теперь даже домашний подкаст можно записывать в студийном качестве. Шах и мат, звукорежиссеры! 🎙
#Alibaba #ClearerVoice #MossFormer #Китай
-------
@tsingular
Alibaba Speech Lab представили набор инструментов с открытым кодом для обработки речи.
Система интегрирует SOTA-модели для шумоподавления, разделения голосов и выделения целевого спикера.
В основе лежат технологии FRCRN и MossFormer.
Фреймворк включает компоненты для обработки, обучения и оценки качества речи с поддержкой до 48кГц.
Проект доступен на GitHub и в Hugging Face и идет в наборе с готовыми предобученными моделями.
Теперь даже домашний подкаст можно записывать в студийном качестве. Шах и мат, звукорежиссеры! 🎙
#Alibaba #ClearerVoice #MossFormer #Китай
-------
@tsingular
Forwarded from Machinelearning
Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ.
Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,
Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:
LLM:
✨ InternLM3-8B-Instruct
✨ MiniMax-Text-01
✨ RWKV-7 RNN + трансформер 👀
✨ Собственно сам DeepSeek-R1
✨ Baichuan-M1-14B медицинский LLM 🩺
✨ Qwen2.5-Math-PRM от Alibaba
✨ Qwen2.5 -1M
Модели кодинга:
✨ Tare от BytedanceTalk
TTS модели синтеза и генерации речи:
✨ T2A-01-HD от MiniMax AI
✨ LLaSA
МЛЛМ:
✨ Kimi k1.5 от Moonshot AI
✨ MiniCPM-o-2_6 от OpenBMB
✨ Sa2VA-4B от ByteDanceOSS
✨ VideoLLaMA 3 от Alibaba DAMO
✨ LLaVA-Mini от Китайской академии наук
✨Hunyuan-7B от TXhunyuan
✨ Hunyuan 3D 2.0
ИИ-агенты:
✨ UI-TARS от ByteDanceOSS
✨ GLM-PC
Датасеты:
✨ Fineweb-Edu-Chinese-V2.1
✨ Multimodal_textbook от Alibaba
✨ MME-Finance от Hithink AI
✨ GameFactory от KwaiVGI
📌 Полный список Релизов
#ai #ml #digest #china #deepseek #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Qwen2.5-Omni: мультимодальный интеллект в одной модели
Qwen2.5-Omni-7B воспринимает текст, изображения, аудио и видео одновременно, выдавая ответы в текстовом и голосовом форматах.
Уникальная архитектура Thinker-Talker с технологией TMRoPE обеспечивает идеальную синхронизацию видео и звука.
Система работает в полностью реальном времени, мгновенно обрабатывая фрагментированные данные.
Превосходит узкоспециализированные модели аналогичного размера, демонстрируя выдающиеся результаты в OmniBench.
Функционал включает выбор голоса (Chelsie/Daring) и поддержку FlashAttention-2 для оптимизации производительности.
Требования к памяти: 16 ГБ в стандартном режиме, 28 ГБ при использовании FlashAttention-2 с BF16.
Один интеллект чтобы править всеми. Наконец-то не нужно переключаться между разными моделями для разных задач!
Видеочат в реальном времени на 16 гигах!!!
Это же буквально локально в каждом смартфоне или роботе.
#Qwen #multimodal #Alibaba
-------
@tsingular
Qwen2.5-Omni-7B воспринимает текст, изображения, аудио и видео одновременно, выдавая ответы в текстовом и голосовом форматах.
Уникальная архитектура Thinker-Talker с технологией TMRoPE обеспечивает идеальную синхронизацию видео и звука.
Система работает в полностью реальном времени, мгновенно обрабатывая фрагментированные данные.
Превосходит узкоспециализированные модели аналогичного размера, демонстрируя выдающиеся результаты в OmniBench.
Функционал включает выбор голоса (Chelsie/Daring) и поддержку FlashAttention-2 для оптимизации производительности.
Требования к памяти: 16 ГБ в стандартном режиме, 28 ГБ при использовании FlashAttention-2 с BF16.
Один интеллект чтобы править всеми. Наконец-то не нужно переключаться между разными моделями для разных задач!
Видеочат в реальном времени на 16 гигах!!!
Это же буквально локально в каждом смартфоне или роботе.
#Qwen #multimodal #Alibaba
-------
@tsingular
🔥 Alibaba Cloud открывает AI-возможности для международных заказчиков
Alibaba Cloud на своём Spring Launch 2025 только что представила серию новостей.
Самое важное — компания открывает международный доступ к своим передовым AI-моделям и инфраструктуре через зоны доступности в Сингапуре.
Ключевые новинки:
🧠 Продвинутые модели для серьезных задач
• Qwen-Max — масштабная MoE-модель (Mixture of Experts)
• QwQ-Plus — специализированная модель рассуждений для аналитических задач
• QVQ-Max — модель визуального рассуждения с высокой точностью
• Qwen2.5-Omni-7b — комплексная мультимодальная модель для работы с текстом, изображениями, аудио и видео
⚡️ Технические усовершенствования PAI (Platform for AI)
• Распределенный inference с многоузловой архитектурой — решение ограничений традиционной одноузловой архитектуры
• Функция prefill-decode disaggregation — увеличивает параллельные вычисления на 92% и TPS (токенов в секунду) на 91% при работе с Qwen2.5-72B
• Доступ к почти 300 передовым open-source моделям, включая собственные серии Qwen и Wan
🔄 Интеграция с базами данных
• Встроенные AI-возможности в реляционную БД PolarDB — устраняет необходимость переноса данных и снижает задержки
• Интеграция хранилища AnalyticDB в Model Studio как рекомендуемой векторной БД для RAG-решений
🛠 Новые SaaS-инструменты на базе AI
• AI Doc — умная обработка документов на базе LLM для извлечения информации и создания отчетов по бизнес-требованиям
• Smart Studio — платформа для создания контента (text-to-image, image-to-image, text-to-video) с ориентацией на маркетинг и творческие отрасли
Практическое применение:
• Для разработчиков AI-продуктов: возможность работать с распределенными моделями и быстрее обрабатывать сверхбольшие контексты
• Для бизнес-аналитиков: интеграция AI прямо в базы данных = работа с данными без экспорта/импорта
• Для маркетологов: создание визуального контента с помощью AI без специальных навыков
Это часть глобальной стратегии — в феврале 2025 Alibaba Group объявила об инвестициях в $53 млрд (380 млрд юаней) в развитие облачной и AI-инфраструктуры на следующие три года.
Ну что, господа облачники, как вам новый глобальный игрок на рынке?
Готовимся корректировать цены или мигрировать? :)
#Alibaba #Китай
———
@tsingular
Alibaba Cloud на своём Spring Launch 2025 только что представила серию новостей.
Самое важное — компания открывает международный доступ к своим передовым AI-моделям и инфраструктуре через зоны доступности в Сингапуре.
Ключевые новинки:
🧠 Продвинутые модели для серьезных задач
• Qwen-Max — масштабная MoE-модель (Mixture of Experts)
• QwQ-Plus — специализированная модель рассуждений для аналитических задач
• QVQ-Max — модель визуального рассуждения с высокой точностью
• Qwen2.5-Omni-7b — комплексная мультимодальная модель для работы с текстом, изображениями, аудио и видео
⚡️ Технические усовершенствования PAI (Platform for AI)
• Распределенный inference с многоузловой архитектурой — решение ограничений традиционной одноузловой архитектуры
• Функция prefill-decode disaggregation — увеличивает параллельные вычисления на 92% и TPS (токенов в секунду) на 91% при работе с Qwen2.5-72B
• Доступ к почти 300 передовым open-source моделям, включая собственные серии Qwen и Wan
🔄 Интеграция с базами данных
• Встроенные AI-возможности в реляционную БД PolarDB — устраняет необходимость переноса данных и снижает задержки
• Интеграция хранилища AnalyticDB в Model Studio как рекомендуемой векторной БД для RAG-решений
🛠 Новые SaaS-инструменты на базе AI
• AI Doc — умная обработка документов на базе LLM для извлечения информации и создания отчетов по бизнес-требованиям
• Smart Studio — платформа для создания контента (text-to-image, image-to-image, text-to-video) с ориентацией на маркетинг и творческие отрасли
Практическое применение:
• Для разработчиков AI-продуктов: возможность работать с распределенными моделями и быстрее обрабатывать сверхбольшие контексты
• Для бизнес-аналитиков: интеграция AI прямо в базы данных = работа с данными без экспорта/импорта
• Для маркетологов: создание визуального контента с помощью AI без специальных навыков
Это часть глобальной стратегии — в феврале 2025 Alibaba Group объявила об инвестициях в $53 млрд (380 млрд юаней) в развитие облачной и AI-инфраструктуры на следующие три года.
Ну что, господа облачники, как вам новый глобальный игрок на рынке?
Готовимся корректировать цены или мигрировать? :)
#Alibaba #Китай
———
@tsingular
🚀 MCP в Китае: новый стандарт превращает ИИ-ассистентов в полноценных цифровых помощников
Китайские технологические гиганты активно внедряют стандарт MCP (Model Context Protocol), превращая ИИ-ассистентов из простых чат-ботов в полноценных цифровых помощников.
❇️ Ключевые игроки и их достижения
Ant Group (финтех-подразделение Alibaba):
• Запустили "MCP-сервер для платежных услуг", соединяющий ИИ с платформой Alipay
• Реализовали возможность оплаты, проверки статуса и возврата денег через обычные голосовые команды
• Платформа Tbox поддерживает развертывание более 30 MCP-сервисов (Alipay, Amap Maps, Google MCP, AWS)
Alibaba Cloud:
• Создали MCP-маркетплейс через платформу ModelScope
• Предлагают более 1000 сервисов для подключения к картам, офисным платформам и облачным хранилищам
• Интегрировали различные Google-сервисы в экосистему
Baidu:
• Активно поддерживает MCP для создания "множества вариантов использования для ИИ-приложений"
• Позиционирует агентов на базе MCP как следующий этап после чат-ботов и LLM
По словам Red Xiao Hong, основателя Butterfly Effect, ИИ-агент "больше похож на человека" по сравнению с чат-ботами, поскольку он может "взаимодействовать с окружающей средой, собирать обратную связь и использовать ее как новый запрос".
🔮 Перспективы для китайской ИИ-экосистемы
Принятие MCP в Китае — стратегическая ставка на ИИ-агентов как следующую эволюцию искусственного интеллекта. Если успех будет достигнут, это может ускорить практическое внедрение ИИ в повседневные приложения, потенциально трансформируя взаимодействие пользователей с цифровыми сервисами.
Способность к взаимодействию и адаптации может стать тем мостом, который наконец соединит узкоспециализированные ИИ-инструменты с более универсальными помощниками, которые технологические компании давно обещали.
Хорошо хоть, не стали изобретать своё. Значит проще будет и китайские сервисы в MCP экосистему интегрировать.
#MCP #Китай #агенты #Alibaba #Baidu #AntGroup
———
@tsingular
Китайские технологические гиганты активно внедряют стандарт MCP (Model Context Protocol), превращая ИИ-ассистентов из простых чат-ботов в полноценных цифровых помощников.
❇️ Ключевые игроки и их достижения
Ant Group (финтех-подразделение Alibaba):
• Запустили "MCP-сервер для платежных услуг", соединяющий ИИ с платформой Alipay
• Реализовали возможность оплаты, проверки статуса и возврата денег через обычные голосовые команды
• Платформа Tbox поддерживает развертывание более 30 MCP-сервисов (Alipay, Amap Maps, Google MCP, AWS)
Alibaba Cloud:
• Создали MCP-маркетплейс через платформу ModelScope
• Предлагают более 1000 сервисов для подключения к картам, офисным платформам и облачным хранилищам
• Интегрировали различные Google-сервисы в экосистему
Baidu:
• Активно поддерживает MCP для создания "множества вариантов использования для ИИ-приложений"
• Позиционирует агентов на базе MCP как следующий этап после чат-ботов и LLM
По словам Red Xiao Hong, основателя Butterfly Effect, ИИ-агент "больше похож на человека" по сравнению с чат-ботами, поскольку он может "взаимодействовать с окружающей средой, собирать обратную связь и использовать ее как новый запрос".
🔮 Перспективы для китайской ИИ-экосистемы
Принятие MCP в Китае — стратегическая ставка на ИИ-агентов как следующую эволюцию искусственного интеллекта. Если успех будет достигнут, это может ускорить практическое внедрение ИИ в повседневные приложения, потенциально трансформируя взаимодействие пользователей с цифровыми сервисами.
Способность к взаимодействию и адаптации может стать тем мостом, который наконец соединит узкоспециализированные ИИ-инструменты с более универсальными помощниками, которые технологические компании давно обещали.
Хорошо хоть, не стали изобретать своё. Значит проще будет и китайские сервисы в MCP экосистему интегрировать.
#MCP #Китай #агенты #Alibaba #Baidu #AntGroup
———
@tsingular
Media is too big
VIEW IN TELEGRAM
🚀 Qwen3: Новое поколение гибридных AI-моделей с рассуждениями и MCP поддержкой
Alibaba выпустила Qwen3 — семейство моделей, которое выводит возможности ИИ на новый уровень, особенно в области агентных систем и рассуждений.
📊 Ключевые технические характеристики
Qwen3 доступна сразу в 8 вариантах:
128K контекст:
• Флагман: Qwen3-235B-A22B (235 млрд параметров, активируется только 22 млрд)
• Средняя модель: Qwen3-30B-A3B (30 млрд параметров, активируется 3 млрд)
• Малые модели: от 0.6B до 32B
Qwen3-32B, Qwen3-14B, Qwen3-8B,
32K контекст: Qwen3-4B, Qwen3-1.7B, Qwen3-0.6B
Все модели поддерживают контекстное окно 32K-128K токенов и могут работать с примерно 119 языками и диалектами, включая русский.
🧠 Гибридные режимы мышления
Инновационная особенность Qwen3 — возможность переключения между двумя режимами:
• Режим мышления (Thinking Mode): пошаговое рассуждение для сложных математических, логических задач и написания кода
• Быстрый режим (Non-Thinking Mode): мгновенные ответы на простые вопросы
Переключение выполняется через API-параметр enable_thinking=True/False или инструкциями /think и /no_think в запросах.
🛠 Агентные возможности и поддержка MCP
Интересна фокусная оптимизация под:
• MCP
• Интеграции с внешними API инструментами в режиме с размышлением и без
• Возможности работы с кодом, API и структурированными данными
📈 Производительность
Qwen3-235B-A22B превосходит ведущие модели, включая DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro в бенчмарках по:
• Программированию (LiveCodeBench, HumanEval)
• Математике (MATH, AIME, BFCL)
• Общим возможностям
При этом даже небольшая модель Qwen3-4B по эффективности сравнима с Qwen2.5-72B-Instruct!
Странно, конечно, что у флагмана контекст 128К всего. Пора поднимать.
Попробовать Qwen3 можно в Qwen Chat или в демо на Hugging Face.
GitHub
HF
ModelScope
Уже доступна в Ollama
ollama run qwen3
#Qwen3 #агенты #MCP #Alibaba #Китай
———
@tsingular
Alibaba выпустила Qwen3 — семейство моделей, которое выводит возможности ИИ на новый уровень, особенно в области агентных систем и рассуждений.
📊 Ключевые технические характеристики
Qwen3 доступна сразу в 8 вариантах:
128K контекст:
• Флагман: Qwen3-235B-A22B (235 млрд параметров, активируется только 22 млрд)
• Средняя модель: Qwen3-30B-A3B (30 млрд параметров, активируется 3 млрд)
• Малые модели: от 0.6B до 32B
Qwen3-32B, Qwen3-14B, Qwen3-8B,
32K контекст: Qwen3-4B, Qwen3-1.7B, Qwen3-0.6B
Все модели поддерживают контекстное окно 32K-128K токенов и могут работать с примерно 119 языками и диалектами, включая русский.
🧠 Гибридные режимы мышления
Инновационная особенность Qwen3 — возможность переключения между двумя режимами:
• Режим мышления (Thinking Mode): пошаговое рассуждение для сложных математических, логических задач и написания кода
• Быстрый режим (Non-Thinking Mode): мгновенные ответы на простые вопросы
Переключение выполняется через API-параметр enable_thinking=True/False или инструкциями /think и /no_think в запросах.
🛠 Агентные возможности и поддержка MCP
Интересна фокусная оптимизация под:
• MCP
• Интеграции с внешними API инструментами в режиме с размышлением и без
• Возможности работы с кодом, API и структурированными данными
📈 Производительность
Qwen3-235B-A22B превосходит ведущие модели, включая DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro в бенчмарках по:
• Программированию (LiveCodeBench, HumanEval)
• Математике (MATH, AIME, BFCL)
• Общим возможностям
При этом даже небольшая модель Qwen3-4B по эффективности сравнима с Qwen2.5-72B-Instruct!
Странно, конечно, что у флагмана контекст 128К всего. Пора поднимать.
Попробовать Qwen3 можно в Qwen Chat или в демо на Hugging Face.
GitHub
HF
ModelScope
Уже доступна в Ollama
ollama run qwen3
#Qwen3 #агенты #MCP #Alibaba #Китай
———
@tsingular
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Что умеет Wan2.1-VACE:
💡 Эти возможности можно свободно комбинировать, выполняя сложные креативные задачи.
🔍 Ключевые особенности:
▪ SOTA-производительность: Wan2.1 стабильно превосходит существующие open-source модели и даже коммерческие решения уровня state-of-the-art в ряде бенчмарков.
▪ Работает на обычных видеокартах: Модель T2V-1.3B требует всего 8.19 ГБ видеопамяти, что делает её совместимой почти со всеми пользовательскими GPU. Например, на RTX 4090 она генерирует 5-секундное видео 480P примерно за 4 минуты (без оптимизаций, таких как квантизация). Её производительность сопоставима с некоторыми закрытыми моделями.
▪ Мультизадачность: Wan2.1 демонстрирует хорошие результаты в задачах текст-в-видео, изображение-в-видео, видеомонтаж, текст-в-изображение и видео-в-аудио, продвигая границы генерации видео..
▪ Модель способна выдавать 1080P в теории любой длины, при этом сохраняя временную структуру.
- Размер модели: 1.3B и 14B
- Лицензия: Apache-2.
@ai_machinelearning_big_data
#Alibaba #wan #videogeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Alibaba добавил веб-разработку в Qwen
Для тех, кто по какой-то причине не может использовать VPN, появился вариант прокачать свои скиллы вайб кодинга с новой функцией Qwen - Web Dev.
По сути то, что уже доступно в платформах OpenAI, Anthropic и Google достаточно давно, Алибаба выпустила только что.
В качестве бонуса, - разработанные в Qwen веб приложения можно сразу из окна разработки опубликовать и не заморачиваться с хостингом на этапе создания прототипов.
Пробуем тут: https://chat.qwen.ai/
#WebDev #Alibaba #Qwen #Китай
———
@tsingular
Для тех, кто по какой-то причине не может использовать VPN, появился вариант прокачать свои скиллы вайб кодинга с новой функцией Qwen - Web Dev.
По сути то, что уже доступно в платформах OpenAI, Anthropic и Google достаточно давно, Алибаба выпустила только что.
В качестве бонуса, - разработанные в Qwen веб приложения можно сразу из окна разработки опубликовать и не заморачиваться с хостингом на этапе создания прототипов.
Пробуем тут: https://chat.qwen.ai/
#WebDev #Alibaba #Qwen #Китай
———
@tsingular