Одна модель, чтобы работать как агент, держать длинный контекст (1M) с возможностью понимать разные типы модальностей.
Бенчмарки
- 59.0% на SWE-Bench Pro
- 66.0% на Terminal Bench 2.1
- 34.8% на SWE-fficiency
- 28.8% на KernelBench Hard
- 74.2% на MCP Atlas
- контекст до 1M токенов за счёт MiniMax Sparse Attention
- нативная мультимодальность
Отдельно Китайцы выпустили MiniMax Code - свою среду для работы с кодом на базе новой модели.
По ценам: в первые 7 дней дают скидку 50% на стандартное использование с контекстом до 512K.
MiniMax выпускают в open source модель, которая обходит и Opus, и GPT-5.5 на BrowseComp и SVG Bench.
При этом она ещё и лучше GPT-5.5 на SWE-Bench Pro, KernelBench Hard и BankerToolBench, а Opus обгоняет на OSWorld Verified.
API: http://platform.minimax.io
Тарифы по токенам: https://platform.minimax.io/subscribe/token-plan
MiniMax Code: http://code.minimax.io
@ai_machinelearning_big_data
#MiniMax #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍142🔥34❤17👏13🎉5😁4🤬1🐳1
🧠VL-DAC — метод обучения визуально-языковых моделей в симуляторах вместо дорогостоящего дообучения на реальных данных
Исследователи доказали, что VLM можно дешевле и быстрее обучать новым навыкам не в реальной среде, а в наборе симуляторов — а затем переносить эти навыки уже на реальные задачи. Результаты исследования представили на международной конференции по автономным агентам и мультиагентным системам уровня А — AAMAS. К таким выводам пришли ребята из лабы фундаментальных исследований ИИ Т-Банка.
VL-DAC учитывает недостатки предыдущих методов дообучения VLM и учит:
•анализировать интерфейсы и изображения
•выполнять действия шаг за шагом
•оценивать, насколько каждое действие приближает к цели
Для обучения использовали несколько симуляторов, каждый из которых отвечает за отдельный навык: навигацию, работу с объектами или веб-интерфейсами. После обучения модель Qwen2-VL-7B стала более чем на 50% лучше выполнять задачи в интерактивной среде, улучшила пространственную ориентацию на 5% и веб-навигацию на 2%.
Подход может применяться в робототехнике, банкинге, гейминге, логистике и других задачах, где ИИ должен не просто понимать изображение или интерфейс, но и выполнять цепочку последовательных действий.
@ai_machinelearning_big_data
#AI #ML #LLM
Исследователи доказали, что VLM можно дешевле и быстрее обучать новым навыкам не в реальной среде, а в наборе симуляторов — а затем переносить эти навыки уже на реальные задачи. Результаты исследования представили на международной конференции по автономным агентам и мультиагентным системам уровня А — AAMAS. К таким выводам пришли ребята из лабы фундаментальных исследований ИИ Т-Банка.
VL-DAC учитывает недостатки предыдущих методов дообучения VLM и учит:
•анализировать интерфейсы и изображения
•выполнять действия шаг за шагом
•оценивать, насколько каждое действие приближает к цели
Для обучения использовали несколько симуляторов, каждый из которых отвечает за отдельный навык: навигацию, работу с объектами или веб-интерфейсами. После обучения модель Qwen2-VL-7B стала более чем на 50% лучше выполнять задачи в интерактивной среде, улучшила пространственную ориентацию на 5% и веб-навигацию на 2%.
Подход может применяться в робототехнике, банкинге, гейминге, логистике и других задачах, где ИИ должен не просто понимать изображение или интерфейс, но и выполнять цепочку последовательных действий.
@ai_machinelearning_big_data
#AI #ML #LLM
👍150🤔82❤75👏28🔥7👌6
Tencent выпустил Hy-Memory — плагин памяти для долгосрочных агентов вроде OpenClaw.
Под капотом: 6-уровневый фреймворк памяти, дуальная система System1/System2 и трёхуровневая цепочка эволюции воспоминаний.
Агент накапливает контекст и уточняет понимание пользователя со временем.
Заявленные цифры: на 70% меньше хранимых воспоминаний при плотности информации выше на 45%, потребление токенов на длинных контекстах снижается на 35%, обновление памяти ускоряется на 20%.
Вместо роста сырого RAG-хранилища система сжимает и переструктурирует знания, что особенно актуально при многодневных сессиях с одним агентом.
Установка:
📷Project & Download:
https://memory.hunyuan.tencent.com
📷 OpenClaw Docs:
https://memory.hunyuan.tencent.com/openclaw/
@ai_machinelearning_big_data
Под капотом: 6-уровневый фреймворк памяти, дуальная система System1/System2 и трёхуровневая цепочка эволюции воспоминаний.
Агент накапливает контекст и уточняет понимание пользователя со временем.
Заявленные цифры: на 70% меньше хранимых воспоминаний при плотности информации выше на 45%, потребление токенов на длинных контекстах снижается на 35%, обновление памяти ускоряется на 20%.
Вместо роста сырого RAG-хранилища система сжимает и переструктурирует знания, что особенно актуально при многодневных сессиях с одним агентом.
Установка:
openclaw plugins uninstall openclaw-hy-memory📷Project & Download:
https://memory.hunyuan.tencent.com
📷 OpenClaw Docs:
https://memory.hunyuan.tencent.com/openclaw/
@ai_machinelearning_big_data
🤔55👍46❤13👏7💯5🔥4👨💻3❤🔥1
Компания скорректировала структуру выдачи GPT-5.5 Instant: модель стала генерировать меньше избыточных длинных списков и ее ответы теперь более читаемы и естественны.
Вместе с этим из GPT-5.5 Instant и GPT-5.5 Thinking убрали функцию Canvas. Теперь эти элементы рендерятся как инлайн-блоки в основном окне чата.
Доступ к классическому Canvas остался у платных пользователей при ручном переключении на старые версии моделей.
Также объявлены сроки удаления устаревших продуктов в веб-интерфейсе ChatGPT:
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔47😢21❤12😐6🔥3🥰3👍1🤬1🌭1💅1🆒1
Что умеет:
- работать как гибридный агент с GUI и CLI
- решать задачи с визуальными и текстовыми данными
- помогать в кодинге и продуктивной работе
- принимать входные данные разных форматов
- анализировать изображения, рассуждать по ним и привязывать ответы к конкретным объектам
- использовать поиск для более точных ответов
- переноситься между разными агентными фреймворками
Qwen3.7-Plus доступна через API в Alibaba Cloud Model Studio.
Blog: https://qwen.ai/blog?id=qwen3.7-plus
Qwen Studio: https://chat.qwen.ai/?models=qwen3.7-plus
API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international
@ai_machinelearning_big_data
#qwen #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤64👍27🔥11🐳2🍓1
Media is too big
VIEW IN TELEGRAM
Создатель Claude направил финансовому регулятору предварительный проект заявления на проведение IPO. Сроки листинга, объем выпускаемых бумаг и ценовой диапазон не утверждены - выход на биржу зависит от рыночной конъюнктуры.
Заявке предшествовал раунд финансирования на $65 млрд, после которого оценка стартапа приблизилась к $1 трлн.
Юридически Anthropic зарегистрирована как Public Benefit Corporation, что обязывает компанию балансировать между извлечением прибыли и общественной пользой.
anthropic.com
Проект стоимостью 45 млрд евро анонсирован на саммите Choose France.
На первом этапе к 2031 году в регионе О-де-Франс развернут мощности на 3,1 ГВт. К реализации привлекли локальных партнеров: Schneider Electric развернет производственный кластер компонентов для ЦОД, а стартап Sesterce поможет со строительством. Локация выбрана из-за стабильного доступа к энергосети и местной технологической экосистемы.
Новые ЦОД дополнят глобальную инфраструктуру SoftBank. Компания уже участвует в строительстве гигаваттного дата-центра в Абу-Даби, финансирует обучение суверенной модели на 1 трлн параметров в Японии и открывает центры проектирования чипов в Южной Корее.
group.softbank
Инструмент Computer Use, ранее доступный только на macOS, позволяет модели самостоятельно взаимодействовать с файлами и системными ресурсами.
Обновление нацелено на автоматизацию тестирования софта, поиска багов и проверки кода. Навигация и вызов приложений осуществляются через специальные текстовые теги.
Удаленный доступ к Codex интегрировали в мобильное приложение ChatGPT для iOS и Android. Пользователи могут ставить задачи и мониторить процессы на рабочей станции со смартфона.
OpenAI в сети Х
Nvidia анонсировала открытую MoE-модель Nemotron 3 Ultra с архитектурой на 550 млрд параметров, из которых 55 млрд активны при генерации.
По оценке Artificial Analysis, модель обошла Gemma 4 и gpt-oss-120b. Выше в рейтинге остаются китайская Kimi K2.6 и закрытые флагманы уровня Opus 4.8.
Скорость Nemotron 3 Ultra при тестировании через провайдера DeepInfra превышает 300 токенов в секунду. Открытые модели сопоставимого размера от DeepSeek и Moonshot генерируют 50–100 токенов. Релиз на Hugging Face, OpenRouter и других площадках запланирован на 4 июня.
Artificial Analysis в сети Х
Директор по машинному обучению и ИИ Apple Келси Петерсон перешла в OpenAI. По данным журналиста Bloomberg Марка Гурмана, уход состоялся за неделю до WWDC 2026, где планируется презентация обновленного голосового ассистента.
Петерсон работала в Apple с 2015 года и отвечала за внедрение Apple Intelligence в Siri. На WWDC 2024 она проводила первую демонстрацию помощника с поддержкой кросс-апп контекста и многоэтапных задач. Позже релиз перенесли для доработки стандартов качества проекта.
Презентацию новой версии Siri 8 июня проведет другой спикер.
Mark Gurman в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65👏25🔥15❤14🤩5🎉2🤷♂1🦄1
Forwarded from Machine learning Interview
Основатель DeepSeek перевел весь код с NVIDIA на Huawei: зачем он это сделал и что теперь будет с китайским ИИ
Лян Вэньфэнг, основатель DeepSeek, потратил месяцы на полный перенос кодовой базы DeepSeek с чипов NVIDIA на Ascend от Huawei. Не потому что нужно было что-то исправить, а потому что он решил доказать: китайский ИИ может работать без американского железа.
DeepSeek уже показал отличные результаты на чипах NVIDIA до санкций. У компании было рабочее решение, но Вэньфэнг пошел другим путем. Проект занял месяцы, потребовал огромных ресурсов и задержал выпуск новой версии модели. Но результат стоил того.
Что получилось на выходе:
- DeepSeek полностью работает на чипах Huawei Ascend без потери качества
- Доказано, что чипы Huawei способны тянуть полноценные ИИ-нагрузки
- Другие китайские ИИ-компании теперь имеют реальный повод перейти с NVIDIA на Huawei
- Большая часть зависимости от американских поставщиков чипов убрана
Вэньфэнг нес огромное давление, сроки сдвинулись, команда работала без гарантий что выйдет рабочее решение. Но он довел дело до конца и доказал: китайская ИИ-индустрия может строить свой собственный стек, не завися от того, дадут ли следующую партию поставок через Тихий океан.
@machinelearning_interview
Лян Вэньфэнг, основатель DeepSeek, потратил месяцы на полный перенос кодовой базы DeepSeek с чипов NVIDIA на Ascend от Huawei. Не потому что нужно было что-то исправить, а потому что он решил доказать: китайский ИИ может работать без американского железа.
DeepSeek уже показал отличные результаты на чипах NVIDIA до санкций. У компании было рабочее решение, но Вэньфэнг пошел другим путем. Проект занял месяцы, потребовал огромных ресурсов и задержал выпуск новой версии модели. Но результат стоил того.
Что получилось на выходе:
- DeepSeek полностью работает на чипах Huawei Ascend без потери качества
- Доказано, что чипы Huawei способны тянуть полноценные ИИ-нагрузки
- Другие китайские ИИ-компании теперь имеют реальный повод перейти с NVIDIA на Huawei
- Большая часть зависимости от американских поставщиков чипов убрана
Вэньфэнг нес огромное давление, сроки сдвинулись, команда работала без гарантий что выйдет рабочее решение. Но он довел дело до конца и доказал: китайская ИИ-индустрия может строить свой собственный стек, не завися от того, дадут ли следующую партию поставок через Тихий океан.
@machinelearning_interview
1🔥333👍121❤47👏21🤷♂5😨4⚡3🥱3❤🔥2😁2🎉2
Проект вырос из исследований по симуляции физического мира, к которым присоединилась команда видеогенератора Sora.
На начальном этапе компания сосредоточится на разработке специализированных машин для помощи в строительстве инфраструктуры.
Конечная цель проекта - обеспечить каждого человека персональным роботом, способным выполнять любые бытовые и рабочие поручения.
В 2020 году компания закрыла предыдущие проекты в робототехнике из-за дефицита обучающих данных.
Для перезапуска направления OpenAI открыла наем инженеров по аппаратному обеспечению, системной интеграции и ML.
Возвращение связано с развитием воплощенного ИИ: взаимодействие алгоритмов с физической средой позволит собрать массивы данных, необходимых для обучения AGI.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡84🔥64🤔19😁18🎉18❤11👍3💔1🍓1
2 июня в Сан‑Франциско открылась ежегодная конференция для разработчиков Microsoft Build 2026. Программный доклад провёл гендиректор компании Сатья Наделла, центральная тема - агентные системы.
На открытии выступили: глава Nvidia Дженсен Хуанг (по видеосвязи), гендиректор Qualcomm Кристиано Амон и создатель OpenClaw Питер Штайнбергер.
В первый день компания представила несколько групп продуктов и сервисов.
Гендиректор Microsoft AI Мустафа Сулейман анонсировал семейство из 7 новых моделей MAI для работы с изображениями, голосом, транскрипцией и кодом.
Среди названных - MAI‑Thinking‑1 (ризонинг-модель, обученная без дистилляции с 35 млрд активных параметров и окном контекста 128K), MAI‑Code‑1-Flash (заточена под GitHub и VS Code), а также MAI‑Image‑2.5 и MAI‑-Voice-2.
Microsoft представила новую категорию Autopilots, всегда активных агентов с собственной идентичностью, работающих в фоне и действующих от имени пользователя.
Первым стал Scout - персональный ассистент в Windows, построенный на OpenClaw. Он работает с приложениями Microsoft 365 и предназначен для фоновых задач (ведение календаря, отчётности по расходам и подготовка писем).
Scout доступен в режиме превью для клиентов программы Frontier в США.
Также анонсирован Microsoft IQ, слой контекста для агентов (Work IQ, Fabric IQ, Web IQ), который станет общедоступным в GitHub Copilot, Foundry и Copilot Studio.
Сообщили о запуске десктопного приложения GitHub Copilot (в режиме предварительного доступа), функции Frontier Tuning для дообучения агентов в рамках корпоративных требований (закрытый превью), а также Project Rayfin - управляемого бэкенда на платформе Microsoft Fabric.
Windows получает функции для разработчиков: набор Coreutils (Linux-подобные утилиты командной строки, работающие в Windows 11 нативно), создание и запуск Linux-контейнеров через WSL и новый Intelligent Terminal, передающий контекст ИИ-агенту.
Отдельно показали платформу Project Solara для устройств, которые работают на ИИ‑агентах. Microsoft показала два референс‑дизайна (настольный хаб с распознаванием лица и носимый бейдж с камерой и расшифровкой разговоров).
Анонсировали виртуальные машины Azure Cobalt 200 (сказали о приросте производительности на 50%), ускоритель второго поколения Maia 200, базу данных Azure HorizonDB на основе PostgreSQL, а также Foundry Local на Azure Local для развёртывания суверенного ИИ.
Спустя год после чипа Majorana 1 Наделла представил Majorana 2 - следующее поколение, компания заявляет о кубитах примерно в 1000 раз точнее за счёт нового материала на основе свинца и о цели создать квантовый компьютер к 2029 году.
На второй, заключительный день конференции, ожидаются технические сессии и демонстрации по агентам, Copilot, Azure Foundry и локальному ИИ в Windows.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🤔42❤15🔥15🎉13👌6🗿1
Media is too big
VIEW IN TELEGRAM
Президент США подписал указ о кибербезопасности в сфере ИИ. Разработчикам передовых закрытых моделей предлагают добровольно предоставлять государству доступ к продуктам за 30 дней до релиза для аудита безопасности и поиска уязвимостей.
Изначальный 90-дневный период проверки сократили по требованию IT-индустрии. Финальный документ прямо запрещает вводить обязательное государственное лицензирование и принудительную премодерацию.
Одновременно Минфин, Пентагон и АНБ создадут совместный координационный центр. Структура займется защитой правительственной IT-инфраструктуры: автоматизирует сканирование федеральных систем и будет координировать противодействие кибератакам с использованием нейросетей.
whitehouse.gov
Компания выпустила обновление Codex для пользователей без технического бэкграунда. В продукт добавили 62 ролевых плагина и 110 функций для аналитиков, дизайнеров, инвестбанкиров и специалистов по продажам.
Среди новых инструментов - Sites для конвертации отчетов в интерактивные веб-страницы и Annotations для редактирования фрагментов текста или таблиц через промпты.
Платформа открыта для сторонних разработчиков. Первыми партнерами по интеграции стали Wix, Figma и Replit. Планируется релиз плагинов для корпоративных финансов, консалтинга и юриспруденции.
Прирост нетехнической аудитории в 3 раза опережает рост базы разработчиков, OpenAI отчиталась о еженедельной аудитории в 5 млн человек.
openai.com
К инициативе по поиску уязвимостей в критической инфраструктуре (энергетике, водоснабжении, здравоохранении и связи) присоединились 150 организаций из 15 стран.
По данным компании, первые 50 участников выявили с её помощью более 10 тысяч багов. Доступ к технологии также может получить Агентство ЕС по кибербезопасности. Anthropic планирует открыть широкий доступ к Mythos в ближайшие недели после внедрения систем защиты.
По прогнозам компании, генеративные модели уровня Mythos от конкурентов появятся через 6–12 месяцев.
anthropic.com
ИИ-поисковик представил архитектуру Search as Code, в которой модели компании работают как планировщики: они анализируют задачу и генерируют Python-код для создания поисковых пайплайнов.
Процесс состоит из 3-х уровней: LLM управляет логикой и пишет код, скрипт выполняется в песочнице для фильтрации, агрегации и дедупликации данных, а за извлечение, парсинг и ранжирование информации отвечает инструмент Agentic Search SDK.
Агенты могут запускать параллельные запросы и динамически корректировать стратегию. Search as Code позволяет обрабатывать сырые данные программными алгоритмами в песочнице до их передачи в языковую модель, что предотвращает перегрузку контекстного окна LLM.
perplexity.ai
Председатель SK Group заявил на конференции Computex, что расширение связано со спросом на высокопроизводительную память для ИИ-ускорителей. По прогнозам руководства, дефицит комплектующих на этом рынке сохранится до 2030 года.
Главным партнером SK Hynix остается Nvidia, южнокорейский вендор планирует стать основным поставщиком HBM для будущей архитектуры Rubin. Сроки внедрения следующего стандарта памяти, HBM4E, также напрямую зависят от Nvidia, которая пока выступает его единственным заказчиком.
Глава чипмейкера также предостерег индустрию от завышения цен на HBM и DRAM. По его словам, резкий рост стоимости памяти подорвет долгосрочное развитие ИИ-экосистемы.
reuters.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51❤19🔥15👏14🤔10😁1