Подразделение Alibaba сообщила о выпуске Qwen-VLA - модели, которая способна управлять роботами разных типов без отдельной настройки под каждую платформу.
VLA-модели получают на вход изображение с камеры и текстовую команду, а на выходе выдают конкретные действия для робота.
Новинка построена на VL-основе Qwen3.5-4B и дополнена декодером действий на 1,15 млрд параметров.
Модель объединяет 3 типа задач: манипуляции (захват и перемещение предметов), навигацию и прогнозирование траекторий, а переключение между разными роботами требует лишь изменения текстовой инструкции.
Qwen-VLA не уступает специализированным системам, обученным под каждую отдельную задачу - GR00T (разработка NVIDIA) и π0.5 (Physical Intelligence).
На наборе тестов LIBERO Qwen-VLA показала 97,9%, на RoboTwin-Hard - 87,2%, а в экспериментах с двуруким роботом ALOHA средний процент успешных выполнений в знакомых условиях составил 83,6% и 76,9% в незнакомых.
Пока опубликован технический отчет и создан репозиторий проекта, о доступности самих моделей не сообщается.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍101🔥34👏12❤8🎉7👌3💘1
Вице-президент Google Джош Вудворд в ответ на жалобы пользователей на то, что лимит Gemini расходуется слишком быстро и непредсказуемо, рассказал, что команда внедряет 6 мер по оптимизации квот.
По его словам, часть изменений уже действует, остальные находятся в разработке.
Перечень мер выглядит так:
Сроков завершения работ по тем пунктам, которые ещё дорабатываются, Вудворд не назвал.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103👏25❤17🤔13😁12👌4🔥3
Одна модель, чтобы работать как агент, держать длинный контекст (1M) с возможностью понимать разные типы модальностей.
Бенчмарки
- 59.0% на SWE-Bench Pro
- 66.0% на Terminal Bench 2.1
- 34.8% на SWE-fficiency
- 28.8% на KernelBench Hard
- 74.2% на MCP Atlas
- контекст до 1M токенов за счёт MiniMax Sparse Attention
- нативная мультимодальность
Отдельно Китайцы выпустили MiniMax Code - свою среду для работы с кодом на базе новой модели.
По ценам: в первые 7 дней дают скидку 50% на стандартное использование с контекстом до 512K.
MiniMax выпускают в open source модель, которая обходит и Opus, и GPT-5.5 на BrowseComp и SVG Bench.
При этом она ещё и лучше GPT-5.5 на SWE-Bench Pro, KernelBench Hard и BankerToolBench, а Opus обгоняет на OSWorld Verified.
API: http://platform.minimax.io
Тарифы по токенам: https://platform.minimax.io/subscribe/token-plan
MiniMax Code: http://code.minimax.io
@ai_machinelearning_big_data
#MiniMax #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍141🔥33❤17👏13🎉5😁4🐳1
🧠VL-DAC — метод обучения визуально-языковых моделей в симуляторах вместо дорогостоящего дообучения на реальных данных
Исследователи доказали, что VLM можно дешевле и быстрее обучать новым навыкам не в реальной среде, а в наборе симуляторов — а затем переносить эти навыки уже на реальные задачи. Результаты исследования представили на международной конференции по автономным агентам и мультиагентным системам уровня А — AAMAS. К таким выводам пришли ребята из лабы фундаментальных исследований ИИ Т-Банка.
VL-DAC учитывает недостатки предыдущих методов дообучения VLM и учит:
•анализировать интерфейсы и изображения
•выполнять действия шаг за шагом
•оценивать, насколько каждое действие приближает к цели
Для обучения использовали несколько симуляторов, каждый из которых отвечает за отдельный навык: навигацию, работу с объектами или веб-интерфейсами. После обучения модель Qwen2-VL-7B стала более чем на 50% лучше выполнять задачи в интерактивной среде, улучшила пространственную ориентацию на 5% и веб-навигацию на 2%.
Подход может применяться в робототехнике, банкинге, гейминге, логистике и других задачах, где ИИ должен не просто понимать изображение или интерфейс, но и выполнять цепочку последовательных действий.
@ai_machinelearning_big_data
#AI #ML #LLM
Исследователи доказали, что VLM можно дешевле и быстрее обучать новым навыкам не в реальной среде, а в наборе симуляторов — а затем переносить эти навыки уже на реальные задачи. Результаты исследования представили на международной конференции по автономным агентам и мультиагентным системам уровня А — AAMAS. К таким выводам пришли ребята из лабы фундаментальных исследований ИИ Т-Банка.
VL-DAC учитывает недостатки предыдущих методов дообучения VLM и учит:
•анализировать интерфейсы и изображения
•выполнять действия шаг за шагом
•оценивать, насколько каждое действие приближает к цели
Для обучения использовали несколько симуляторов, каждый из которых отвечает за отдельный навык: навигацию, работу с объектами или веб-интерфейсами. После обучения модель Qwen2-VL-7B стала более чем на 50% лучше выполнять задачи в интерактивной среде, улучшила пространственную ориентацию на 5% и веб-навигацию на 2%.
Подход может применяться в робототехнике, банкинге, гейминге, логистике и других задачах, где ИИ должен не просто понимать изображение или интерфейс, но и выполнять цепочку последовательных действий.
@ai_machinelearning_big_data
#AI #ML #LLM
👍148🤔61❤40👏28🔥7👌6
Tencent выпустил Hy-Memory — плагин памяти для долгосрочных агентов вроде OpenClaw.
Под капотом: 6-уровневый фреймворк памяти, дуальная система System1/System2 и трёхуровневая цепочка эволюции воспоминаний.
Агент накапливает контекст и уточняет понимание пользователя со временем.
Заявленные цифры: на 70% меньше хранимых воспоминаний при плотности информации выше на 45%, потребление токенов на длинных контекстах снижается на 35%, обновление памяти ускоряется на 20%.
Вместо роста сырого RAG-хранилища система сжимает и переструктурирует знания, что особенно актуально при многодневных сессиях с одним агентом.
Установка:
📷Project & Download:
https://memory.hunyuan.tencent.com
📷 OpenClaw Docs:
https://memory.hunyuan.tencent.com/openclaw/
@ai_machinelearning_big_data
Под капотом: 6-уровневый фреймворк памяти, дуальная система System1/System2 и трёхуровневая цепочка эволюции воспоминаний.
Агент накапливает контекст и уточняет понимание пользователя со временем.
Заявленные цифры: на 70% меньше хранимых воспоминаний при плотности информации выше на 45%, потребление токенов на длинных контекстах снижается на 35%, обновление памяти ускоряется на 20%.
Вместо роста сырого RAG-хранилища система сжимает и переструктурирует знания, что особенно актуально при многодневных сессиях с одним агентом.
Установка:
openclaw plugins uninstall openclaw-hy-memory📷Project & Download:
https://memory.hunyuan.tencent.com
📷 OpenClaw Docs:
https://memory.hunyuan.tencent.com/openclaw/
@ai_machinelearning_big_data
🤔52👍45❤12👏7💯5🔥4👨💻3
Компания скорректировала структуру выдачи GPT-5.5 Instant: модель стала генерировать меньше избыточных длинных списков и ее ответы теперь более читаемы и естественны.
Вместе с этим из GPT-5.5 Instant и GPT-5.5 Thinking убрали функцию Canvas. Теперь эти элементы рендерятся как инлайн-блоки в основном окне чата.
Доступ к классическому Canvas остался у платных пользователей при ручном переключении на старые версии моделей.
Также объявлены сроки удаления устаревших продуктов в веб-интерфейсе ChatGPT:
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔46😢21❤12😐6🔥3🥰3👍1🤬1🌭1💅1🆒1
Что умеет:
- работать как гибридный агент с GUI и CLI
- решать задачи с визуальными и текстовыми данными
- помогать в кодинге и продуктивной работе
- принимать входные данные разных форматов
- анализировать изображения, рассуждать по ним и привязывать ответы к конкретным объектам
- использовать поиск для более точных ответов
- переноситься между разными агентными фреймворками
Qwen3.7-Plus доступна через API в Alibaba Cloud Model Studio.
Blog: https://qwen.ai/blog?id=qwen3.7-plus
Qwen Studio: https://chat.qwen.ai/?models=qwen3.7-plus
API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international
@ai_machinelearning_big_data
#qwen #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤60👍27🔥11🐳2
Media is too big
VIEW IN TELEGRAM
Создатель Claude направил финансовому регулятору предварительный проект заявления на проведение IPO. Сроки листинга, объем выпускаемых бумаг и ценовой диапазон не утверждены - выход на биржу зависит от рыночной конъюнктуры.
Заявке предшествовал раунд финансирования на $65 млрд, после которого оценка стартапа приблизилась к $1 трлн.
Юридически Anthropic зарегистрирована как Public Benefit Corporation, что обязывает компанию балансировать между извлечением прибыли и общественной пользой.
anthropic.com
Проект стоимостью 45 млрд евро анонсирован на саммите Choose France.
На первом этапе к 2031 году в регионе О-де-Франс развернут мощности на 3,1 ГВт. К реализации привлекли локальных партнеров: Schneider Electric развернет производственный кластер компонентов для ЦОД, а стартап Sesterce поможет со строительством. Локация выбрана из-за стабильного доступа к энергосети и местной технологической экосистемы.
Новые ЦОД дополнят глобальную инфраструктуру SoftBank. Компания уже участвует в строительстве гигаваттного дата-центра в Абу-Даби, финансирует обучение суверенной модели на 1 трлн параметров в Японии и открывает центры проектирования чипов в Южной Корее.
group.softbank
Инструмент Computer Use, ранее доступный только на macOS, позволяет модели самостоятельно взаимодействовать с файлами и системными ресурсами.
Обновление нацелено на автоматизацию тестирования софта, поиска багов и проверки кода. Навигация и вызов приложений осуществляются через специальные текстовые теги.
Удаленный доступ к Codex интегрировали в мобильное приложение ChatGPT для iOS и Android. Пользователи могут ставить задачи и мониторить процессы на рабочей станции со смартфона.
OpenAI в сети Х
Nvidia анонсировала открытую MoE-модель Nemotron 3 Ultra с архитектурой на 550 млрд параметров, из которых 55 млрд активны при генерации.
По оценке Artificial Analysis, модель обошла Gemma 4 и gpt-oss-120b. Выше в рейтинге остаются китайская Kimi K2.6 и закрытые флагманы уровня Opus 4.8.
Скорость Nemotron 3 Ultra при тестировании через провайдера DeepInfra превышает 300 токенов в секунду. Открытые модели сопоставимого размера от DeepSeek и Moonshot генерируют 50–100 токенов. Релиз на Hugging Face, OpenRouter и других площадках запланирован на 4 июня.
Artificial Analysis в сети Х
Директор по машинному обучению и ИИ Apple Келси Петерсон перешла в OpenAI. По данным журналиста Bloomberg Марка Гурмана, уход состоялся за неделю до WWDC 2026, где планируется презентация обновленного голосового ассистента.
Петерсон работала в Apple с 2015 года и отвечала за внедрение Apple Intelligence в Siri. На WWDC 2024 она проводила первую демонстрацию помощника с поддержкой кросс-апп контекста и многоэтапных задач. Позже релиз перенесли для доработки стандартов качества проекта.
Презентацию новой версии Siri 8 июня проведет другой спикер.
Mark Gurman в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43👏22🔥15❤10🤩5🎉1🦄1
Forwarded from Machine learning Interview
Основатель DeepSeek перевел весь код с NVIDIA на Huawei: зачем он это сделал и что теперь будет с китайским ИИ
Лян Вэньфэнг, основатель DeepSeek, потратил месяцы на полный перенос кодовой базы DeepSeek с чипов NVIDIA на Ascend от Huawei. Не потому что нужно было что-то исправить, а потому что он решил доказать: китайский ИИ может работать без американского железа.
DeepSeek уже показал отличные результаты на чипах NVIDIA до санкций. У компании было рабочее решение, но Вэньфэнг пошел другим путем. Проект занял месяцы, потребовал огромных ресурсов и задержал выпуск новой версии модели. Но результат стоил того.
Что получилось на выходе:
- DeepSeek полностью работает на чипах Huawei Ascend без потери качества
- Доказано, что чипы Huawei способны тянуть полноценные ИИ-нагрузки
- Другие китайские ИИ-компании теперь имеют реальный повод перейти с NVIDIA на Huawei
- Большая часть зависимости от американских поставщиков чипов убрана
Вэньфэнг нес огромное давление, сроки сдвинулись, команда работала без гарантий что выйдет рабочее решение. Но он довел дело до конца и доказал: китайская ИИ-индустрия может строить свой собственный стек, не завися от того, дадут ли следующую партию поставок через Тихий океан.
@machinelearning_interview
Лян Вэньфэнг, основатель DeepSeek, потратил месяцы на полный перенос кодовой базы DeepSeek с чипов NVIDIA на Ascend от Huawei. Не потому что нужно было что-то исправить, а потому что он решил доказать: китайский ИИ может работать без американского железа.
DeepSeek уже показал отличные результаты на чипах NVIDIA до санкций. У компании было рабочее решение, но Вэньфэнг пошел другим путем. Проект занял месяцы, потребовал огромных ресурсов и задержал выпуск новой версии модели. Но результат стоил того.
Что получилось на выходе:
- DeepSeek полностью работает на чипах Huawei Ascend без потери качества
- Доказано, что чипы Huawei способны тянуть полноценные ИИ-нагрузки
- Другие китайские ИИ-компании теперь имеют реальный повод перейти с NVIDIA на Huawei
- Большая часть зависимости от американских поставщиков чипов убрана
Вэньфэнг нес огромное давление, сроки сдвинулись, команда работала без гарантий что выйдет рабочее решение. Но он довел дело до конца и доказал: китайская ИИ-индустрия может строить свой собственный стек, не завися от того, дадут ли следующую партию поставок через Тихий океан.
@machinelearning_interview
🔥220👍71❤28👏10😨3🤷♂2⚡1❤🔥1😁1🎉1