Anthropic только что выпустила Claude Opus 4.8.
Anthropic только что выпустила Claude Opus 4.8.
Три конкретных изменения по сравнению с 4.7: точнее судит о ситуации, честнее говорит о собственных ограничениях и дольше держит контекст при самостоятельной работе без подсказок.
По бенчмаркам: agentic coding (SWE-Bench Pro) 69.2% против 64.3% у 4.7 и 58.6% у GPT-5.5. Computer use (OSWorld) 83.4%. Knowledge work (GDPval-AA) 1890 против 1753 у предыдущей версии. В терминальном кодинге GPT-5.5 пока впереди с 78.2% против 74.6%, но разрыв небольшой.
Цена не изменилась.
В релизе упоминается апдейт про "более честную оценку собственного прогресса" — это прямо отвечает на одну из главных болей при работе с агентами: модель уверенно сообщает, что задача выполнена, хотя на самом деле застряла. Посмотрим, насколько это реально изменилось на практике.
claude.com/blog/introducing-dynamic-workflows-in-claude-code
Anthropic только что выпустила Claude Opus 4.8.
Три конкретных изменения по сравнению с 4.7: точнее судит о ситуации, честнее говорит о собственных ограничениях и дольше держит контекст при самостоятельной работе без подсказок.
По бенчмаркам: agentic coding (SWE-Bench Pro) 69.2% против 64.3% у 4.7 и 58.6% у GPT-5.5. Computer use (OSWorld) 83.4%. Knowledge work (GDPval-AA) 1890 против 1753 у предыдущей версии. В терминальном кодинге GPT-5.5 пока впереди с 78.2% против 74.6%, но разрыв небольшой.
Цена не изменилась.
В релизе упоминается апдейт про "более честную оценку собственного прогресса" — это прямо отвечает на одну из главных болей при работе с агентами: модель уверенно сообщает, что задача выполнена, хотя на самом деле застряла. Посмотрим, насколько это реально изменилось на практике.
claude.com/blog/introducing-dynamic-workflows-in-claude-code
1❤104👍45🤔32🔥20👏14🤓4😁2💘1
This media is not supported in your browser
VIEW IN TELEGRAM
Обновление позволяет писать JavaScript-скрипты для оркестрации субагентов в рамках одной сессии. Скрипты берут на себя логические ветвления и хранение промежуточных результатов.
Для сложных задач добавлен профиль конфигурации ultracode. В нем модель самостоятельно решает, когда запустить мультиагентный пайплайн для перекрестного код-ревью и автоматического исправления ошибок.
Воркфлоу доступны через CLI и расширения для IDE на тарифах Max и Team. Инструмент кратно увеличивает расход токенов.
claude.com
Французский ИИ-стартап обновил чат-бота Le Chat, переформатировав его в автономного агента Vibe, который интегрируется с Google Workspace, Outlook, Slack, GitHub, SharePoint и Notion.
Агент сканирует почту, парсит таблицы и верстает отчеты, предварительно согласовывая пошаговый план действий. Сценарии можно автоматизировать по расписанию или сохранять как шаблоны.
Появился Code Mode, где агенты работают в изолированных песочницах: пишут код, исправляют баги, создают тесты и доводят задачу до открытия PR. Фоновые сессии выполняются параллельно и не зависят от локального устройства.
Доступна бесплатная версия и тарифы: Pro (15 евро), Team (25 евро) и Enterprise. Точные лимиты не раскрываются - квоты подписок указаны как кратные множители.
mistral.ai
Google показала одноплатный компьютер Coral Board для локального запуска модели Gemma 3 270M.
В основе платы - открытый нейромодуль Coral NPU на архитектуре RISC-V от Google Research. Вычислительным ядром выступает SoC Synaptics Astra SL2619: двухъядерный процессор с частотой 2 ГГц, 2 ГБ оперативной памяти и производительностью 1 TOPS. Этого объема ресурсов хватает для инференса компактной LLM.
Плата спроектирована для интеграции в AR-очки, умные часы и наушники. На презентации показали работу синхронного переводчика, голосовое управление периферией и генерацию звука в реальном времени - модель YOLOv8 отслеживала движения медуз и конвертировала их в музыку.
Исходный код демо-проектов выложен на GitHub. Поставки стартуют летом, цена пока неизвестна.
Google Gemma в сети Х
Алгоритмы видеохостинга будут принудительно добавлять предупреждающую плашку при выявлении генерации, если создатель не указал это сам.
Маркировка станет жестко привязанной и неудаляемой для медиафайлов с метаданными стандарта C2PA, а также для роликов, созданных в Veo и Dream Screen. При ложном срабатывании решение можно оспорить через YouTube Studio.
Визуально метки разместятся под плеером в длинных видео и поверх контента в Shorts. Наличие плашки не влияет на монетизацию и алгоритмы рекомендаций.
Дополнительно YouTube делает общедоступным инструмент Likeness Detection для поиска дипфейков, систему откроют для авторов старше 18 лет.
blog.youtube
Amazon MGM Studios и AWS запустили фонд GenAI Creators и платформу Project Nara для ИИ-видеопроизводства. Участники грантовой программы получат финансирование и доступ к новой облачной инфраструктуре.
Project Nara автоматически маршрутизирует задачи и подбирает модель для каждого этапа генерации. Платформа комбинирует сторонние видеомодели и проприетарные решения Amazon, обученные на контенте студии.
Инфраструктура интегрирует ИИ-агентов напрямую с Maya, Blender, Nuke, Unreal Engine и пакетом Adobe. Встроенная система трекинга документирует происхождение всех сгенерированных ассетов для контроля авторских прав.
amazonmgmstudios.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44❤20🔥8🤔5🎉2🌚1🤣1
Оксфорд, Стэнфорд, Институт Аллена и Sakana AI выложили работу, в которой ставится вопрос: способен ли ИИ предвидеть ход научного прогресса.
Исследование примыкает к дискуссии об "автономном учёном" на базе ИИ - направлении, которое сейчас волнует индустрию, его развивает в том числе и Sakana AI.
Чтобы отделить реальный прогноз от существующих знаний, авторы построили бенч CUSP.
Языковые модели обычно знают уже состоявшиеся открытия из обучающих данных, поэтому при прямом вопросе об известном результате легко дают верный ответ.
CUSP это блокирует: для события, скажем, 2025 года модели разрешают опираться только на сведения, доступные до этой даты.
Говоря проще, систему возвращают в прошлое и заставляют предсказывать будущее вслепую.
В основу теста легли 4760 научных событий за январь 2024 - март 2026 годов из журналов Nature, Science, Cell и подборок заметных работ по ИИ. На этой базе было сформировано 17 429 заданий.
В прогонах принимали участие GPT-5.4, Claude Sonnet 4.5, DeepSeek R1 и GPT-OSS 20B.
Выбрать правдоподобное техническое направление смогли - на вопросах с выбором ответа GPT-5.4 показала точность 81,9%.
Но определить, будет ли конкретное достижение вообще реализовано, модели почти не способны: точность держалась в пределах 45–52%, что близко к подбрасыванию монеты.
Сроки все модели называли с запаздыванием: медианная ошибка GPT-5.4 составила 14 месяцев, Claude Sonnet 4.5 - 17, а вот LLaMA 3.3 оказалась самой точной - 4 месяца.
В задачах на проектирование решения даже лучший результат (5,04 из 10 у GPT-5.4) не попадал в реально применённый позже технический путь.
Рисёрч отмечает деталь: качество прогноза почти не зависело от того, относится событие к периоду до или после среза знаний модели.
Это означает, что дело не только в нехватке данных. Доступ к дополнительной информации повышает результаты, но не закрывает разрыв, причём для самых цитируемых работ он был заметнее.
LLM пока выступают скорее ретроспективными толкователями уже известных результатов, чем надёжными предсказателями будущих.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #Science #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔62👍44❤23😐18🤨10🔥5🫡5🥰1👌1
Liquid AI выкатили LFM2.5-8B-A1B - MoE на 8B параметров с 1.5B активных, заточенную под запуск на телефонах, ноутбуках и роботах.
Что внутри:
- гибридная MoE-архитектура линейки LFM2.5
- контекст 128K
- 38T токенов претрейна плюс крупномасштабный RL поверх
- LFM2 open-weight лицензия
- дообучение под узкую задачу влезает на одну GPU
По заявлениям команды, модель уверенно работает с tool calling и тягается с моделями в 3-4 раза тяжелее.
Веса уже на HF. Ждём первых замеров на MMLU-Pro, IFEval и BFCL - особенно интересно, как 1.5B активных параметров поведут себя на длинных tool-use цепочках.
• Блог: http://liquid.ai/blog/lfm2-5-8b-a1b
• Веса: https://huggingface.co/LiquidAI/LFM2.5-8B-A1B
• Документация: http://docs.liquid.ai
• Потестить: http://playground.liquid.ai
@ai_machinelearning_big_data
Что внутри:
- гибридная MoE-архитектура линейки LFM2.5
- контекст 128K
- 38T токенов претрейна плюс крупномасштабный RL поверх
- LFM2 open-weight лицензия
- дообучение под узкую задачу влезает на одну GPU
По заявлениям команды, модель уверенно работает с tool calling и тягается с моделями в 3-4 раза тяжелее.
Веса уже на HF. Ждём первых замеров на MMLU-Pro, IFEval и BFCL - особенно интересно, как 1.5B активных параметров поведут себя на длинных tool-use цепочках.
• Блог: http://liquid.ai/blog/lfm2-5-8b-a1b
• Веса: https://huggingface.co/LiquidAI/LFM2.5-8B-A1B
• Документация: http://docs.liquid.ai
• Потестить: http://playground.liquid.ai
@ai_machinelearning_big_data
1🔥78👍62👏26🤓12❤11🌚3🎉2🤩1
Media is too big
VIEW IN TELEGRAM
Компания запустила программу Rosalind Biodefense и открыла бесплатный доступ к специализированной модели GPT-Rosalind. OpenAI полностью покроет расходы на использование модели для верифицированных команд.
Подать заявку могут академические, некоммерческие и государственные лаборатории, а также небольшие профильные стартапы.
Представленная в апреле GPT-Rosalind обучена для анализа молекул, белков, генов и механизмов заболеваний. Цель инициативы - ускорить переход от научных гипотез к реальным экспериментам в сфере биозащиты.
openai.com
Новая платформа самостоятельно находит уязвимости в коде, пишет и внедряет патчи.
В основе - технологии стартапа Wiz для картирования IT-среды и приоритизации реальных векторов атак. Мониторинг обеспечивают несколько ИИ-моделей: легковесные ведут непрерывный анализ сети, а ресурсоёмкие активируются только для проверки критических узлов.
За исправление отвечает ИИ-агент Codemender от DeepMind. При обнаружении уязвимости он заменяет проблемный код в среде разработки. Заявлена возможность рефакторинга legacy-архитектур на современные языки программирования. Перед деплоем патча платформа автоматически генерирует тесты для проверки внесённых изменений.
google.com
На лицензию OpenMDW-1.1 переходят 4 семейства: Cosmos, Isaac GR00T, Ising и Nemotron.
Стандарт разработан Linux Foundation для ИИ-индустрии и одним документом покрывает все компоненты релиза: исходный код, датасеты, веса, метаданные и документацию. Лицензия позволяет делать дообученные модели и производные продукты проприетарными.
Разработчики получают права на коммерциализацию, модификацию и распространение моделей. Единственное требование - сохранение оригинальных копирайтов при дистрибуции.
NVIDIA в сети Х
Dubbing v2 предназначена для перевода речи на 90+ языков с клонированием голоса и сохранением эмоций оригинала.
Модель перешла на архитектуру speech-to-speech: аудио обрабатывается напрямую без промежуточной конвертации в текст. Она сохраняет тембр, интонации и темп спикера, автоматически синхронизируя перевод с таймингами и паузами исходного видео. Алгоритм генерирует контекстную адаптацию фраз вместо дословного перевода, не требуя ручной корректировки.
База поддерживаемых языков расширена с 29 до более чем 90. Инструмент доступен в двух форматах: ElevenCreative (платформа для креаторов и маркетологов) и ElevenProductions для киностудий и бродкастеров. Публичный API для готовится к релизу.
elevenlabs.io
Genesis World - симулятор для робототехники, который позволяет генерировать 100 дней симуляции за один час вычислений.
В платформу встроены кастомные солверы, объединяющие физику твердых и деформируемых тел и предотвращающие взаимопроникновение мешей. Вычисления обрабатывает кроссплатформенный GPU-компилятор Quadrants, а за генерацию данных для СV отвечает движок Nyx с поддержкой трассировки пути.
В симуляторе есть профили Unitree, Sharpa, Wuji и различных робототехнических захватов. Genesis World рассчитывает сложные физические контакты в режиме, близком к реальному времени, и позволяет тестировать модели для прямого sim-to-real переноса политик на физических роботов.
Genesis AI в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68❤24🔥13👏8🤩7🤓3🤔2💘1
Подразделение Alibaba сообщила о выпуске Qwen-VLA - модели, которая способна управлять роботами разных типов без отдельной настройки под каждую платформу.
VLA-модели получают на вход изображение с камеры и текстовую команду, а на выходе выдают конкретные действия для робота.
Новинка построена на VL-основе Qwen3.5-4B и дополнена декодером действий на 1,15 млрд параметров.
Модель объединяет 3 типа задач: манипуляции (захват и перемещение предметов), навигацию и прогнозирование траекторий, а переключение между разными роботами требует лишь изменения текстовой инструкции.
Qwen-VLA не уступает специализированным системам, обученным под каждую отдельную задачу - GR00T (разработка NVIDIA) и π0.5 (Physical Intelligence).
На наборе тестов LIBERO Qwen-VLA показала 97,9%, на RoboTwin-Hard - 87,2%, а в экспериментах с двуруким роботом ALOHA средний процент успешных выполнений в знакомых условиях составил 83,6% и 76,9% в незнакомых.
Пока опубликован технический отчет и создан репозиторий проекта, о доступности самих моделей не сообщается.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍98🔥33👏12❤8🎉7👌3💘1
Вице-президент Google Джош Вудворд в ответ на жалобы пользователей на то, что лимит Gemini расходуется слишком быстро и непредсказуемо, рассказал, что команда внедряет 6 мер по оптимизации квот.
По его словам, часть изменений уже действует, остальные находятся в разработке.
Перечень мер выглядит так:
Сроков завершения работ по тем пунктам, которые ещё дорабатываются, Вудворд не назвал.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102👏24❤17🤔13😁12👌4🔥3
Одна модель, чтобы работать как агент, держать длинный контекст (1M) с возможностью понимать разные типы модальностей.
Бенчмарки
- 59.0% на SWE-Bench Pro
- 66.0% на Terminal Bench 2.1
- 34.8% на SWE-fficiency
- 28.8% на KernelBench Hard
- 74.2% на MCP Atlas
- контекст до 1M токенов за счёт MiniMax Sparse Attention
- нативная мультимодальность
Отдельно Китайцы выпустили MiniMax Code - свою среду для работы с кодом на базе новой модели.
По ценам: в первые 7 дней дают скидку 50% на стандартное использование с контекстом до 512K.
MiniMax выпускают в open source модель, которая обходит и Opus, и GPT-5.5 на BrowseComp и SVG Bench.
При этом она ещё и лучше GPT-5.5 на SWE-Bench Pro, KernelBench Hard и BankerToolBench, а Opus обгоняет на OSWorld Verified.
API: http://platform.minimax.io
Тарифы по токенам: https://platform.minimax.io/subscribe/token-plan
MiniMax Code: http://code.minimax.io
@ai_machinelearning_big_data
#MiniMax #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍132🔥30❤14👏13🎉4😁3🐳1
🧠VL-DAC — метод обучения визуально-языковых моделей в симуляторах вместо дорогостоящего дообучения на реальных данных
Исследователи доказали, что VLM можно дешевле и быстрее обучать новым навыкам не в реальной среде, а в наборе симуляторов — а затем переносить эти навыки уже на реальные задачи. Результаты исследования представили на международной конференции по автономным агентам и мультиагентным системам уровня А — AAMAS. К таким выводам пришли ребята из лабы фундаментальных исследований ИИ Т-Банка.
VL-DAC учитывает недостатки предыдущих методов дообучения VLM и учит:
•анализировать интерфейсы и изображения
•выполнять действия шаг за шагом
•оценивать, насколько каждое действие приближает к цели
Для обучения использовали несколько симуляторов, каждый из которых отвечает за отдельный навык: навигацию, работу с объектами или веб-интерфейсами. После обучения модель Qwen2-VL-7B стала более чем на 50% лучше выполнять задачи в интерактивной среде, улучшила пространственную ориентацию на 5% и веб-навигацию на 2%.
Подход может применяться в робототехнике, банкинге, гейминге, логистике и других задачах, где ИИ должен не просто понимать изображение или интерфейс, но и выполнять цепочку последовательных действий.
@ai_machinelearning_big_data
#AI #ML #LLM
Исследователи доказали, что VLM можно дешевле и быстрее обучать новым навыкам не в реальной среде, а в наборе симуляторов — а затем переносить эти навыки уже на реальные задачи. Результаты исследования представили на международной конференции по автономным агентам и мультиагентным системам уровня А — AAMAS. К таким выводам пришли ребята из лабы фундаментальных исследований ИИ Т-Банка.
VL-DAC учитывает недостатки предыдущих методов дообучения VLM и учит:
•анализировать интерфейсы и изображения
•выполнять действия шаг за шагом
•оценивать, насколько каждое действие приближает к цели
Для обучения использовали несколько симуляторов, каждый из которых отвечает за отдельный навык: навигацию, работу с объектами или веб-интерфейсами. После обучения модель Qwen2-VL-7B стала более чем на 50% лучше выполнять задачи в интерактивной среде, улучшила пространственную ориентацию на 5% и веб-навигацию на 2%.
Подход может применяться в робототехнике, банкинге, гейминге, логистике и других задачах, где ИИ должен не просто понимать изображение или интерфейс, но и выполнять цепочку последовательных действий.
@ai_machinelearning_big_data
#AI #ML #LLM
👍134❤36🤔36👏15🔥6👌6
Tencent выпустил Hy-Memory — плагин памяти для долгосрочных агентов вроде OpenClaw.
Под капотом: 6-уровневый фреймворк памяти, дуальная система System1/System2 и трёхуровневая цепочка эволюции воспоминаний.
Агент накапливает контекст и уточняет понимание пользователя со временем.
Заявленные цифры: на 70% меньше хранимых воспоминаний при плотности информации выше на 45%, потребление токенов на длинных контекстах снижается на 35%, обновление памяти ускоряется на 20%.
Вместо роста сырого RAG-хранилища система сжимает и переструктурирует знания, что особенно актуально при многодневных сессиях с одним агентом.
Установка:
📷Project & Download:
https://memory.hunyuan.tencent.com
📷 OpenClaw Docs:
https://memory.hunyuan.tencent.com/openclaw/
@ai_machinelearning_big_data
Под капотом: 6-уровневый фреймворк памяти, дуальная система System1/System2 и трёхуровневая цепочка эволюции воспоминаний.
Агент накапливает контекст и уточняет понимание пользователя со временем.
Заявленные цифры: на 70% меньше хранимых воспоминаний при плотности информации выше на 45%, потребление токенов на длинных контекстах снижается на 35%, обновление памяти ускоряется на 20%.
Вместо роста сырого RAG-хранилища система сжимает и переструктурирует знания, что особенно актуально при многодневных сессиях с одним агентом.
Установка:
openclaw plugins uninstall openclaw-hy-memory📷Project & Download:
https://memory.hunyuan.tencent.com
📷 OpenClaw Docs:
https://memory.hunyuan.tencent.com/openclaw/
@ai_machinelearning_big_data
👍30🤔24❤6👏5💯4🔥3👨💻3
Компания скорректировала структуру выдачи GPT-5.5 Instant: модель стала генерировать меньше избыточных длинных списков и ее ответы теперь более читаемы и естественны.
Вместе с этим из GPT-5.5 Instant и GPT-5.5 Thinking убрали функцию Canvas. Теперь эти элементы рендерятся как инлайн-блоки в основном окне чата.
Доступ к классическому Canvas остался у платных пользователей при ручном переключении на старые версии моделей.
Также объявлены сроки удаления устаревших продуктов в веб-интерфейсе ChatGPT:
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔12😢7❤4😐3🔥2🥰1🆒1