⚡️ xAI первой в мире запустила AI-кластер для обучения на 1 ГВт
И это только старт - уже в апреле мощность увеличат до 1.5 ГВт.
Мы видим новый тренд: AI-дата-центры превращаются в энергопотребителей масштаба города, причём по скорости роста это больше похоже на релиз софта, чем на строительство тяжёлой инфраструктуры.
Чтобы почувствовать масштаб:
1 ГВт - это примерно половина всего энергопотребления Лос-Анджелеса.
И xAI не единственные - hyperscaler’ы массово переходят к “гига-уровню”:
OpenAI
- строит Stargate в Milam County (Техас) мощностью 1.2 ГВт
- партнёрство с SB Energy на $1B
- строительство начинается уже сейчас
- запуск по фазам - начиная с 2026 года
Anthropic
- стартовая фаза: 245 МВт совместно с Hut 8 и Fluidstack
- предусмотрено масштабирование до 2.295 ГВт на нескольких площадках
- развёртывание будет идти несколько лет
https://x.com/elonmusk/status/2012500968571637891
И это только старт - уже в апреле мощность увеличат до 1.5 ГВт.
Мы видим новый тренд: AI-дата-центры превращаются в энергопотребителей масштаба города, причём по скорости роста это больше похоже на релиз софта, чем на строительство тяжёлой инфраструктуры.
Чтобы почувствовать масштаб:
1 ГВт - это примерно половина всего энергопотребления Лос-Анджелеса.
И xAI не единственные - hyperscaler’ы массово переходят к “гига-уровню”:
OpenAI
- строит Stargate в Milam County (Техас) мощностью 1.2 ГВт
- партнёрство с SB Energy на $1B
- строительство начинается уже сейчас
- запуск по фазам - начиная с 2026 года
Anthropic
- стартовая фаза: 245 МВт совместно с Hut 8 и Fluidstack
- предусмотрено масштабирование до 2.295 ГВт на нескольких площадках
- развёртывание будет идти несколько лет
https://x.com/elonmusk/status/2012500968571637891
🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning
Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.
Самое интересное: VoxCPM фактически убирает токенизацию из TTS.
Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию
Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов
🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг
Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming
⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.
https://github.com/OpenBMB/VoxCPM
Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.
Самое интересное: VoxCPM фактически убирает токенизацию из TTS.
Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию
Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов
🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг
Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming
⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.
https://github.com/OpenBMB/VoxCPM
💾 Оперативная память может резко подорожать - аналитики ждут новый скачок цен
Индустриальные аналитики прогнозируют крупный рост цен на оперативную память.
Citibank резко пересмотрел прогноз:
📈 теперь ожидается рост цен на DRAM в 2026 году на +88%
(раньше прогнозировали **+53%**).
Почему так:
Micron прямо заявляет, что дефицит DRAM сохранится даже после 2026.
Даже с запуском новых фабрик компания считает, что сможет закрыть только 50% - 66% спроса клиентов.
Главный драйвер - AI.
ИИ-сервера и ускорители сжирают память тоннами, и это вытесняет обычный рынок.
Дополнительный фактор:
производители памяти переводят мощности на более прибыльные AI/Server чипы, создавая “искусственный дефицит” обычной DRAM и NAND, которые идут в:
- ПК
- ноутбуки
- телефоны
- бытовые гаджеты
Итог для пользователей:
производители ПК уже предупреждают - в 2026 году розничные цены могут вырасти на +15% - 20%.
https://x.com/Beth_Kindig/status/2012612262767321271
Индустриальные аналитики прогнозируют крупный рост цен на оперативную память.
Citibank резко пересмотрел прогноз:
📈 теперь ожидается рост цен на DRAM в 2026 году на +88%
(раньше прогнозировали **+53%**).
Почему так:
Micron прямо заявляет, что дефицит DRAM сохранится даже после 2026.
Даже с запуском новых фабрик компания считает, что сможет закрыть только 50% - 66% спроса клиентов.
Главный драйвер - AI.
ИИ-сервера и ускорители сжирают память тоннами, и это вытесняет обычный рынок.
Дополнительный фактор:
производители памяти переводят мощности на более прибыльные AI/Server чипы, создавая “искусственный дефицит” обычной DRAM и NAND, которые идут в:
- ПК
- ноутбуки
- телефоны
- бытовые гаджеты
Итог для пользователей:
производители ПК уже предупреждают - в 2026 году розничные цены могут вырасти на +15% - 20%.
https://x.com/Beth_Kindig/status/2012612262767321271
Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.
NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.
Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.
Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.
Модели 2-х видов:
KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).
KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).
Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.
Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер:
Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.
Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.
Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.
Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.
Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.
@ai_machinelearning_big_data
#AI #ML #LLM #KVZAP #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Новый тренд: инфлюенсеры и коучи продают “себя” в формате ИИ.
Примеры:
- Matthew Hussey запустил подписку $39/мес на “Matthew AI”
уже 1M+ чатов и 1.9M минут общения
- Tony Robbins продаёт AI-коучинг-приложение за $99/мес
- похожие боты уже массово появляются в нишах:
отношения, психология, духовные практики
Кто всё это делает:
Delphi — стартап (основан в 2022), который получил $16M инвестиций.
Они делают таких ботов на базе LLM: то есть фактически это просто чатбот, который разговаривает “в стиле автора”.
Почему это так популярно:
✅ бот работает 24/7
✅ масштабируется на миллионы диалогов
✅ можно монетизировать знания и контент без траты личного времени
Но есть и обратная сторона:
появляются неавторизованные копии.
Например, сайт YesChat продавал доступ к ботам “в стиле миллиардера Тонни Роббинсона”, используя его имя и образ без разрешения.
В итоге Роббинсон подал в суд - и выиграл.
YesChat выплатил миллиардеру $1 млн и закрылся.
AI-коучи — это новая подписочная экономика.
Ты покупаешь не курс и не консультацию.
Ты покупаешь “компанию знаменитости”, но в виде чатбота.
wsj.com/style/ai-self-help-chat-bots-tony-robbins-gabby-bernstein-0cf8b3b0
Примеры:
- Matthew Hussey запустил подписку $39/мес на “Matthew AI”
уже 1M+ чатов и 1.9M минут общения
- Tony Robbins продаёт AI-коучинг-приложение за $99/мес
- похожие боты уже массово появляются в нишах:
отношения, психология, духовные практики
Кто всё это делает:
Delphi — стартап (основан в 2022), который получил $16M инвестиций.
Они делают таких ботов на базе LLM: то есть фактически это просто чатбот, который разговаривает “в стиле автора”.
Почему это так популярно:
✅ бот работает 24/7
✅ масштабируется на миллионы диалогов
✅ можно монетизировать знания и контент без траты личного времени
Но есть и обратная сторона:
появляются неавторизованные копии.
Например, сайт YesChat продавал доступ к ботам “в стиле миллиардера Тонни Роббинсона”, используя его имя и образ без разрешения.
В итоге Роббинсон подал в суд - и выиграл.
YesChat выплатил миллиардеру $1 млн и закрылся.
AI-коучи — это новая подписочная экономика.
Ты покупаешь не курс и не консультацию.
Ты покупаешь “компанию знаменитости”, но в виде чатбота.
wsj.com/style/ai-self-help-chat-bots-tony-robbins-gabby-bernstein-0cf8b3b0
This media is not supported in your browser
VIEW IN TELEGRAM
Демис Хассабис (CEO Google DeepMind) на интервью сказал важную вещь -
И вот тут ответ пока честный - нет.
Причина не в том, что “мало данных” или “не хватает GPU”.
Проблема фундаментальная: у современных моделей нет модели мира.
LLM могут генерировать гениальные тексты, картинки, код.
Но они почти не понимают причинно-следственные связи.
Они не знают, почему событие A приводит к результату B.
Они просто очень хорошо предсказывают, что обычно идёт дальше.
А настоящая научная работа - это не про угадывание.
Это про построение гипотез, проверку, ошибки, итерации.
Про понимание того, как устроена реальность:
физика, биология, химия, причинность.
Хассабис говорит: чтобы ИИ начал открывать новое, ему нужны:
И только тогда ИИ сможет проводить собственные мысленные эксперименты.
Не пересказывать знания.
А создавать их.
Вот где начинается путь к настоящему “цифровому учёному”.
И когда это случится - наука ускорится в разы.
Вопрос уже не в том, умеет ли ИИ решать задачи.
Это мы уже видим каждый день.
Настоящий вопрос другой:
сможет ли ИИ изобретать новую науку?
И вот тут ответ пока честный - нет.
Причина не в том, что “мало данных” или “не хватает GPU”.
Проблема фундаментальная: у современных моделей нет модели мира.
LLM могут генерировать гениальные тексты, картинки, код.
Но они почти не понимают причинно-следственные связи.
Они не знают, почему событие A приводит к результату B.
Они просто очень хорошо предсказывают, что обычно идёт дальше.
А настоящая научная работа - это не про угадывание.
Это про построение гипотез, проверку, ошибки, итерации.
Про понимание того, как устроена реальность:
физика, биология, химия, причинность.
Хассабис говорит: чтобы ИИ начал открывать новое, ему нужны:
- сильное рассуждение, а не только генерация
- долгосрочное планирование
- внутренняя модель мира, которая позволяет “думать”, а не продолжать текст
И только тогда ИИ сможет проводить собственные мысленные эксперименты.
Не пересказывать знания.
А создавать их.
Вот где начинается путь к настоящему “цифровому учёному”.
И когда это случится - наука ускорится в разы.
Обычные языковые модели читают текст как одну длинную ленту.
Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.
И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.
Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.
Sakana AI предложили решение - RePo (Context Re-Positioning).
Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.
Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её , а лишнее игнорируешь.
Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном
В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)
Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.
Средний результат по 8 noisy-бенчмаркам:
- Обычный RoPE: 21.07
- RePo: 28.31
Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.
(везде RePo > RoPE)
- TriviaQA: 61.47 → 73.02 (+11.55)
- GovReport: 6.23 → 16.80 (+10.57)
- 2WikiMultihopQA: 23.32 → 30.86 (+7.54)
- MuSiQue: 7.24 → 13.45 (+6.21)
Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.
@ai_machinelearning_big_data
#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌍 DeepSeek захватывает рынки там, где западные AI-сервисы недоступны
Microsoft собрали оценку глобальной доли DeepSeek - и картина очень показательная.
В Северной Америке и Европе adoption остаётся низким.
Зато в регионах, где доступ к американским сервисам ограничен (или где зарубежные технологии стоят слишком дорого), DeepSeek резко набирает популярность:
- Китай
- Россия
- Иран
- Куба
- Беларусь
- страны Африки (там использование оценивают в 2-4 раза выше, чем в других регионах)
DeepSeek оказался идеальным продуктом для “недообслуженных” рынков:
- больше открытости
- ниже цена
- проще доступ
- лучше адаптация под локальные реалии
И главный вывод тут не про “кто сильнее по бенчмаркам”.
Глобальное распространение ИИ определяется не только качеством модели.
А ещё:
- доступностью
- стоимостью
- языком
- политическими и инфраструктурными ограничениями
Люди выбирают не “самый хайповый AI”, а тот, который реально работает в их стране и подходит по условиям.
microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
Microsoft собрали оценку глобальной доли DeepSeek - и картина очень показательная.
В Северной Америке и Европе adoption остаётся низким.
Зато в регионах, где доступ к американским сервисам ограничен (или где зарубежные технологии стоят слишком дорого), DeepSeek резко набирает популярность:
- Китай
- Россия
- Иран
- Куба
- Беларусь
- страны Африки (там использование оценивают в 2-4 раза выше, чем в других регионах)
DeepSeek оказался идеальным продуктом для “недообслуженных” рынков:
- больше открытости
- ниже цена
- проще доступ
- лучше адаптация под локальные реалии
И главный вывод тут не про “кто сильнее по бенчмаркам”.
Глобальное распространение ИИ определяется не только качеством модели.
А ещё:
- доступностью
- стоимостью
- языком
- политическими и инфраструктурными ограничениями
Люди выбирают не “самый хайповый AI”, а тот, который реально работает в их стране и подходит по условиям.
microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
⚡️ Финляндия научилась передавать “электричество по воздуху” - без проводов
Учёные из Финляндии (в том числе Университет Хельсинки) показали очень необычную штуку: они смогли управляемо передавать электрический разряд через воздух, используя… звук.
Идея выглядит как sci-fi, но логика простая.
Обычно электрическая искра ведёт себя хаотично - разветвляется и летит туда, где ближе металл. Её почти невозможно “направить”, как провод.
А тут исследователи сделали “невидимый провод” в воздухе:
мощные ультразвуковые волны создают в воздухе стабильный канал (как дорожку), по которому искра идёт в нужном направлении.
Эту технологию называют acoustic wire - “акустический провод”.
Она пока экспериментальная, но потенциально может дать:
- бесконтактные соединения (без вилок и кабелей)
- управление искрами в промышленности (сварка/разряд)
- новые “умные интерфейсы”, где питание может подключаться буквально через воздух
Параллельно финны развивают и другие варианты беспроводной энергии:
- power-by-light - питание лазером на удалённый приёмник (важно для опасных мест: АЭС, высоковольтные станции)
- harvesting радиоволн - сбор энергии из окружающих сигналов (почти “Wi-Fi для питания”) для IoT-датчиков, чтобы не менять батарейки
Главная мысль
Тренд двигается к миру, где питание становится более гибким:
меньше проводов, больше “доставки энергии” под задачу.
Источник (University of Helsinki): направляли искры ультразвуком, фактически создавая “невидимый электрический провод”.
Учёные из Финляндии (в том числе Университет Хельсинки) показали очень необычную штуку: они смогли управляемо передавать электрический разряд через воздух, используя… звук.
Идея выглядит как sci-fi, но логика простая.
Обычно электрическая искра ведёт себя хаотично - разветвляется и летит туда, где ближе металл. Её почти невозможно “направить”, как провод.
А тут исследователи сделали “невидимый провод” в воздухе:
мощные ультразвуковые волны создают в воздухе стабильный канал (как дорожку), по которому искра идёт в нужном направлении.
Эту технологию называют acoustic wire - “акустический провод”.
Она пока экспериментальная, но потенциально может дать:
- бесконтактные соединения (без вилок и кабелей)
- управление искрами в промышленности (сварка/разряд)
- новые “умные интерфейсы”, где питание может подключаться буквально через воздух
Параллельно финны развивают и другие варианты беспроводной энергии:
- power-by-light - питание лазером на удалённый приёмник (важно для опасных мест: АЭС, высоковольтные станции)
- harvesting радиоволн - сбор энергии из окружающих сигналов (почти “Wi-Fi для питания”) для IoT-датчиков, чтобы не менять батарейки
Главная мысль
Тренд двигается к миру, где питание становится более гибким:
меньше проводов, больше “доставки энергии” под задачу.
Источник (University of Helsinki): направляли искры ультразвуком, фактически создавая “невидимый электрический провод”.
Да, это буквально кладбище проектов - но невероятно полезное.
Внутри не просто список, а полноценные разборы:
почему взлетели/упали, сколько денег сожгли, какие решения их убили, где была критическая ошибка - и главное: что из этого можно безопасно забрать себе, а что повторять нельзя ни при каких условиях.
А ещё там встроенный ИИ, который берёт провалившийся проект и делает “версию 2.0”:
придумывает название, концепт, рынок, техстек, план запуска и монетизацию, но уже с учётом прошлых ошибок.
Как минимум - очень залипательно.
Стартаперы, вам точно стоит изучить
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 China Telecom выкатили TeleChat3-36B-Thinking - и самое интересное тут даже не размер модели, а инфраструктура, на которой её сделали.
TeleChat3-36B-Thinking обучали на отечественных китайских ускорителях Huawei Ascend (NPU) и в экосистеме MindSpore.
Что интересного :
- модель нативно заточена под экосистему Ascend + MindSpore
- дизайн вдохновлён архитектурными идеями DeepSeek
- упор на стабильность обучения и эффективность
Китай всё активнее уходит в полный собственный (суверенный) стек AI:
“свои чипы → свой фреймворк → свои модели”.
То есть даже при ограничениях на доступ к NVIDIA, они продолжают выпускать большие модели и развивать экосистему - уже без зависимости от западного железа.
Ссылка на модель:
https://huggingface.co/Tele-AI/TeleChat3-36B-Thinking
TeleChat3-36B-Thinking обучали на отечественных китайских ускорителях Huawei Ascend (NPU) и в экосистеме MindSpore.
Что интересного :
- модель нативно заточена под экосистему Ascend + MindSpore
- дизайн вдохновлён архитектурными идеями DeepSeek
- упор на стабильность обучения и эффективность
Китай всё активнее уходит в полный собственный (суверенный) стек AI:
“свои чипы → свой фреймворк → свои модели”.
То есть даже при ограничениях на доступ к NVIDIA, они продолжают выпускать большие модели и развивать экосистему - уже без зависимости от западного железа.
Ссылка на модель:
https://huggingface.co/Tele-AI/TeleChat3-36B-Thinking
🚀 STEP3-VL-10B - мультимодальная модель, которая бьёт гигантов (и весит всего 10B)
StepFun выпустили STEP3-VL-10B - компактную open multimodal модель, которая по метрикам догоняет и местами обгоняет монстров в 10-20 раз больше.
Что заявляют по качеству
- держит SOTA/near-SOTA по визуальному восприятию + reasoning
- на ряде тестов конкурирует с GLM-4.6V, Qwen3-VL и даже Gemini 2.5 Pro
- сильна в OCR, понимании GUI, пространственном мышлении (важно для embodied AI)
Ключевые цифры
- обучена на 1.2T токенов
- 1400+ RL-раундов (RLHF + RLVR)
- поддержка PaCoRe (parallel collaborative reasoning) и контекст до 128K
- в классе <10B лидирует в STEM-задачах:
94.43% на AIME 2025 (с PaCoRe)
Архитектура
- PE-lang visual encoder (1.8B)
- Qwen3-8B decoder
- multi-crop high-res: 728×728 global + локальные кропы
Почему это важно
Тренд очевиден: индустрия уходит от “просто больше параметров”.
Теперь выигрывает тот, кто:
- грамотно собирает архитектуру
- делает сильный RL
- и выжимает максимум из маленькой модели
Base: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B-Base
Chat: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B
StepFun выпустили STEP3-VL-10B - компактную open multimodal модель, которая по метрикам догоняет и местами обгоняет монстров в 10-20 раз больше.
Что заявляют по качеству
- держит SOTA/near-SOTA по визуальному восприятию + reasoning
- на ряде тестов конкурирует с GLM-4.6V, Qwen3-VL и даже Gemini 2.5 Pro
- сильна в OCR, понимании GUI, пространственном мышлении (важно для embodied AI)
Ключевые цифры
- обучена на 1.2T токенов
- 1400+ RL-раундов (RLHF + RLVR)
- поддержка PaCoRe (parallel collaborative reasoning) и контекст до 128K
- в классе <10B лидирует в STEM-задачах:
94.43% на AIME 2025 (с PaCoRe)
Архитектура
- PE-lang visual encoder (1.8B)
- Qwen3-8B decoder
- multi-crop high-res: 728×728 global + локальные кропы
Почему это важно
Тренд очевиден: индустрия уходит от “просто больше параметров”.
Теперь выигрывает тот, кто:
- грамотно собирает архитектуру
- делает сильный RL
- и выжимает максимум из маленькой модели
Base: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B-Base
Chat: https://modelscope.cn/models/stepfun-ai/Step3-VL-10B