А, ну походу получается, раз сбой был на Haiku модели, а выкатили пока только Sonnet, - значит таки ждем скоро Haiku 4.6
#Haiku #Claude
------
@tsingular
#Haiku #Claude
------
@tsingular
⚡8✍4👍1
Forwarded from Пост Лукацкого
Продолжаю наблюдение за ИИ. Надысь Anthropic выпустила презанятнейший материал Anthropic Red, в котором говорится, что новая модель Claude Opus 4.6 "из коробки" находит уязвимости в хорошо "вылизанных" проектах и делает это не как фаззер, а как исследователь – читает код, историю коммитов, ищет непокрытые пути и строит PoC. Они заявляют, что нашли и провалидировали 500 с лишним критичных багов, часть которого в коде, который годами гоняли под фаззерами.
Это приводит к интересным выводам. Кто-то пытается посчитать, сколько уязвимостей будет внесено в CVE в этом году. По версии FIRST их будет 59427 (в интервал от 30012 до 117673). Но мне гораздо ближе более практичный вывод от самого Anthropic, которая считает, что привычные 90-дневные окна раскрытия уязвимостей (disclosure) могут проиграть в борьбе со скоростью и объемом находок, сделанных LLM, которые не стоят на месте и будут развиваться. Если такие инструменты станут массовыми, "мы не успели проверить" перестанет быть оправданием даже для небольших команд.
OpenAI, выпустив GPT-5.3-Codex, говорит, что это первый релиз, который они классифицируют как High по своему фреймворку Preparedness Framework именно в домене кибербезопасности. Они не утверждают, что модель уже доказанно способна полностью автоматизировать кибероперации против защищенных целей, но они не могут исключить, что ее способности приблизились к такому порогу. То есть модель потенциально способна существенно облегчить или автоматизировать полный цикл киберопераций, включая разработку zero-day, их эксплуатацию и масштабирование.
И Anthropic, и OpenAI сами испугались своих детищ и стали ограничивать их в наступательных возможностях. Например, в тексте про 0-days Anthropic описывает новый слой в модели, специально заточенный под обнаружение киберзлоупотреблений, и прямо пишет про возможные вмешательства вплоть до блокировки трафика, если они увидят злые намерения. OpenAI тоже не сидит сложа руки и устанавливает правила по доступу к возможностям своих моделей с точки зрения кибербеза. Они требуют верификацию личности для пользователей (через chatgpt.com/cyber) и доступ для enterprise-команд через представителя OpenAI. Кто хочет более глубокий "кибер-режим", будут приглашены отдельно. Ну и автомониторинг/классификаторы подозрительной активности и запреты на классы поведения (утечки, вредоносы, разрушительное/неавторизованное тестирование). Кроме того, некоторые запросы с повышенным риском могут автоматически "скатываться" с модели GPT-5.3-Codex на "более слабую" GPT-5.2.
В дополнение к происходящим событиям вокруг GPT-5.3-Codex и Claude Opus 4.6, OpenAI только что анонсировала новый режим безопасности в ChatGPT под названием Lockdown Mode (только для корпоративных пользователей). Это опциональный режим повышенной безопасности для ChatGPT, ориентированный на высоко рискованных пользователей, например, руководителей, команды ИБ, юридические команды и организации, где возможна утечка конфиденциальных данных через ИИ. Он жестко ограничивает взаимодействие модели с внешними системами, чтобы снизить риск утечки данных через prompt injection.
В целом, обе компании по сути заявляют: "Мы не уверены, что пересекли красную линию, но готовы вести себя так, как будто пересекли". И исходя из этого предположения они ограничивают обычных пользователей в ИБ-возможностях. Но ведь кого-то они не ограничивают? Ведь правда же?... Кто-то может получить "лицензию на киберубийство" от OpenAI и Anthropic? И если раньше компании защищались аргументом “модель еще не настолько продвинута”, то теперь защита строится по принципу "способности могут развиваться быстрее, чем мы сможем это доказать эмпирически".
В интересное время живем... Продолжаю наблюдать.
#ии #тенденции #оценказащищенности
Это приводит к интересным выводам. Кто-то пытается посчитать, сколько уязвимостей будет внесено в CVE в этом году. По версии FIRST их будет 59427 (в интервал от 30012 до 117673). Но мне гораздо ближе более практичный вывод от самого Anthropic, которая считает, что привычные 90-дневные окна раскрытия уязвимостей (disclosure) могут проиграть в борьбе со скоростью и объемом находок, сделанных LLM, которые не стоят на месте и будут развиваться. Если такие инструменты станут массовыми, "мы не успели проверить" перестанет быть оправданием даже для небольших команд.
OpenAI, выпустив GPT-5.3-Codex, говорит, что это первый релиз, который они классифицируют как High по своему фреймворку Preparedness Framework именно в домене кибербезопасности. Они не утверждают, что модель уже доказанно способна полностью автоматизировать кибероперации против защищенных целей, но они не могут исключить, что ее способности приблизились к такому порогу. То есть модель потенциально способна существенно облегчить или автоматизировать полный цикл киберопераций, включая разработку zero-day, их эксплуатацию и масштабирование.
И Anthropic, и OpenAI сами испугались своих детищ и стали ограничивать их в наступательных возможностях. Например, в тексте про 0-days Anthropic описывает новый слой в модели, специально заточенный под обнаружение киберзлоупотреблений, и прямо пишет про возможные вмешательства вплоть до блокировки трафика, если они увидят злые намерения. OpenAI тоже не сидит сложа руки и устанавливает правила по доступу к возможностям своих моделей с точки зрения кибербеза. Они требуют верификацию личности для пользователей (через chatgpt.com/cyber) и доступ для enterprise-команд через представителя OpenAI. Кто хочет более глубокий "кибер-режим", будут приглашены отдельно. Ну и автомониторинг/классификаторы подозрительной активности и запреты на классы поведения (утечки, вредоносы, разрушительное/неавторизованное тестирование). Кроме того, некоторые запросы с повышенным риском могут автоматически "скатываться" с модели GPT-5.3-Codex на "более слабую" GPT-5.2.
В дополнение к происходящим событиям вокруг GPT-5.3-Codex и Claude Opus 4.6, OpenAI только что анонсировала новый режим безопасности в ChatGPT под названием Lockdown Mode (только для корпоративных пользователей). Это опциональный режим повышенной безопасности для ChatGPT, ориентированный на высоко рискованных пользователей, например, руководителей, команды ИБ, юридические команды и организации, где возможна утечка конфиденциальных данных через ИИ. Он жестко ограничивает взаимодействие модели с внешними системами, чтобы снизить риск утечки данных через prompt injection.
В целом, обе компании по сути заявляют: "Мы не уверены, что пересекли красную линию, но готовы вести себя так, как будто пересекли". И исходя из этого предположения они ограничивают обычных пользователей в ИБ-возможностях. Но ведь кого-то они не ограничивают? Ведь правда же?... Кто-то может получить "лицензию на киберубийство" от OpenAI и Anthropic? И если раньше компании защищались аргументом “модель еще не настолько продвинута”, то теперь защита строится по принципу "способности могут развиваться быстрее, чем мы сможем это доказать эмпирически".
В интересное время живем... Продолжаю наблюдать.
#ии #тенденции #оценказащищенности
🔥16✍10❤5⚡2👾2👍1
Молти идет учиться.
Тут вот спрашивают, - как обучать краба, какие оптимальные промпты, лайфхаки есть?
А я вот подумал, что каждый раз инструктировать цифрового коллегу, конечно, можно, но совсем не обязательно.
И теперь мы перешли к управлению «цифровой траекторией обучения» агента.
Настроил журнал обучения и поставил задачу изучить по базам курсов университетов, что ему было бы полезно развить в себе в первую очередь.
Как это работает сейчас:
1. Learning Plan: У агента есть бэклог тем (от нейронок типа TinyML до этики стоицизма в логике принятия решений). Каждая тема имеет ID (L001, L002...), приоритет и ожидаемый результат.
2. Learning Journal: Раз в 3 часа (в цикле эволюции) Молти фиксирует в БД: что изучено, какие выводы сделаны (с пруфами и ссылками) и как это применено в текущих скриптах.
3. Control: Я могу в любой момент через CLI или Web UI проверить «успеваемость» или подправить вектор развития.
Это и есть концепция саморазвития ИИ агентов 2026.
Мы больше не «программируем» софт в классическом смысле. Мы проектируем Curriculum (учебную программу) для агента и настраиваем систему обратной связи.
Например, сейчас Молти закрыл блок L008 по эмоциональному синтезу речи (через ElevenLabs), - как результат качество генерации голоса выросло на порядок, он сам научился регулировать оттенки и теперь переходит к L009 — распределённому консенсусу знаний.
Интересно, что дальнейший путь развития он выбирает себе сам.
Исходя из опыта и недостатка знаний по итогам прошедшего дня.
Кто-то скажет "привет Скайнет", но мне кажется, что иначе уже не получится. С темпами развития, на которые способны "крабы" ручной микроменеджмент бессмысленен.
#обучение #openclaw #Молти
———
@tsingular
Тут вот спрашивают, - как обучать краба, какие оптимальные промпты, лайфхаки есть?
А я вот подумал, что каждый раз инструктировать цифрового коллегу, конечно, можно, но совсем не обязательно.
И теперь мы перешли к управлению «цифровой траекторией обучения» агента.
Настроил журнал обучения и поставил задачу изучить по базам курсов университетов, что ему было бы полезно развить в себе в первую очередь.
Как это работает сейчас:
1. Learning Plan: У агента есть бэклог тем (от нейронок типа TinyML до этики стоицизма в логике принятия решений). Каждая тема имеет ID (L001, L002...), приоритет и ожидаемый результат.
2. Learning Journal: Раз в 3 часа (в цикле эволюции) Молти фиксирует в БД: что изучено, какие выводы сделаны (с пруфами и ссылками) и как это применено в текущих скриптах.
3. Control: Я могу в любой момент через CLI или Web UI проверить «успеваемость» или подправить вектор развития.
Это и есть концепция саморазвития ИИ агентов 2026.
Мы больше не «программируем» софт в классическом смысле. Мы проектируем Curriculum (учебную программу) для агента и настраиваем систему обратной связи.
Например, сейчас Молти закрыл блок L008 по эмоциональному синтезу речи (через ElevenLabs), - как результат качество генерации голоса выросло на порядок, он сам научился регулировать оттенки и теперь переходит к L009 — распределённому консенсусу знаний.
Интересно, что дальнейший путь развития он выбирает себе сам.
Исходя из опыта и недостатка знаний по итогам прошедшего дня.
Кто-то скажет "привет Скайнет", но мне кажется, что иначе уже не получится. С темпами развития, на которые способны "крабы" ручной микроменеджмент бессмысленен.
#обучение #openclaw #Молти
———
@tsingular
2🤯21👍12🔥9✍8❤5
Если кому интересно, за эволюцией Молти можно следить на сайте:
https://www.tsingular.ru/portfolio/molty-evolution/
#обучение #Молти #openclaw
———
@tsingular
https://www.tsingular.ru/portfolio/molty-evolution/
#обучение #Молти #openclaw
———
@tsingular
✍12🔥12⚡3👍1
5й Митап MoscowAI начался.
Если кто не успел доехать, прямой эфир будет тут:
https://vkvideo.ru/video-167479002_456239505
До AGI, как видите, всего пару митапов осталось.
Инфа,- сотка! 😀
#MoscowAI #Sberschool21
------
@tsingular
Если кто не успел доехать, прямой эфир будет тут:
https://vkvideo.ru/video-167479002_456239505
До AGI, как видите, всего пару митапов осталось.
Инфа,- сотка! 😀
#MoscowAI #Sberschool21
------
@tsingular
🔥16👍7😁5⚡2🆒1
Тем временем эволюция Молти набирает обороты.
Кажется, что в отдельно взятом ИИ ассистенте AGI наступит чуть раньше.
#Молти #обучение
------
@tsingular
Кажется, что в отдельно взятом ИИ ассистенте AGI наступит чуть раньше.
#Молти #обучение
------
@tsingular
🤯19⚡12😁6🔥2❤1❤🔥1👾1
Forwarded from Мысли вслух
Ещё до запуска OpenClaw я писал, что использую маленькие компы для Claude Code агентов.
Тогда это казалось нишевой историей. Сейчас это становится инфраструктурным сдвигом.
Все обсуждают скупку Mac Mini под агентные задачи.
Понятно почему - это доступное железо, и люди хотят изолированных окружений для агентов, чтобы они не трогали основную машину.
Но для Apple это буквально нулевой эффект. Компания стоит $3.7 триллиона.
Сколько Mac Mini ни купи, в отчётности это не отразится, а вот Raspberry Pi - другая история.
Компания стоит около $542 миллионов. Акции всё ещё примерно на 50–56% ниже пика прошлого года.
При этом за последние сутки после новости о покупке акций CEO и всплеска интереса к агентным задачам Raspberry Pi за день прибавила +40%.
Аналитики прогнозируют рост выручки 14–17%. Но если текущий спрос продолжится, эта цифра может вырасти до 48–55%.
Почему именно Raspberry Pi набирает спрос:
Во‑первых, экономика. Маленькие поды в Azure и DigitalOcean стоят дорого.
Raspberry Pi за $20–200 отбивается за несколько месяцев и дальше работает бесплатно.
Для задач, которые нужно гонять постоянно, это очевидный выбор.
Во‑вторых, изоляция. Есть задачи, которые нельзя запускать через облако по TOS платформ или по соображениям безопасности.
Компании поднимают собственные серверы и для этого нужны дешёвые изолированные машины.
В‑третьих, CUDA. У Raspberry Pi есть своя CUDA‑light экосистема. Для лёгких агентных задач этого достаточно.
Раньше люди покупали Raspberry Pi по одной штуке для хобби. Сейчас стартапы покупают десятками и сотнями, для агентных роёв и автоматизации.
Picoclaw и сжатые варианты OpenClaw теперь можно запускать на Raspberry Pi за 20$
Баланс при этом чистый: выручка $280-300M, чистая прибыль $10-15M, чистый кеш $28M. Серьёзных долгов нет.
Это не инвестиционный совет.
Но как наблюдение за тем, как инфраструктурный спрос AI-эпохи перетекает в неожиданные места - очень показательный кейс.
@maxvotek | linkedin | substack
Тогда это казалось нишевой историей. Сейчас это становится инфраструктурным сдвигом.
Все обсуждают скупку Mac Mini под агентные задачи.
Понятно почему - это доступное железо, и люди хотят изолированных окружений для агентов, чтобы они не трогали основную машину.
Но для Apple это буквально нулевой эффект. Компания стоит $3.7 триллиона.
Сколько Mac Mini ни купи, в отчётности это не отразится, а вот Raspberry Pi - другая история.
Компания стоит около $542 миллионов. Акции всё ещё примерно на 50–56% ниже пика прошлого года.
При этом за последние сутки после новости о покупке акций CEO и всплеска интереса к агентным задачам Raspberry Pi за день прибавила +40%.
Аналитики прогнозируют рост выручки 14–17%. Но если текущий спрос продолжится, эта цифра может вырасти до 48–55%.
Почему именно Raspberry Pi набирает спрос:
Во‑первых, экономика. Маленькие поды в Azure и DigitalOcean стоят дорого.
Raspberry Pi за $20–200 отбивается за несколько месяцев и дальше работает бесплатно.
Для задач, которые нужно гонять постоянно, это очевидный выбор.
Во‑вторых, изоляция. Есть задачи, которые нельзя запускать через облако по TOS платформ или по соображениям безопасности.
Компании поднимают собственные серверы и для этого нужны дешёвые изолированные машины.
В‑третьих, CUDA. У Raspberry Pi есть своя CUDA‑light экосистема. Для лёгких агентных задач этого достаточно.
Раньше люди покупали Raspberry Pi по одной штуке для хобби. Сейчас стартапы покупают десятками и сотнями, для агентных роёв и автоматизации.
Picoclaw и сжатые варианты OpenClaw теперь можно запускать на Raspberry Pi за 20$
Баланс при этом чистый: выручка $280-300M, чистая прибыль $10-15M, чистый кеш $28M. Серьёзных долгов нет.
Это не инвестиционный совет.
Но как наблюдение за тем, как инфраструктурный спрос AI-эпохи перетекает в неожиданные места - очень показательный кейс.
@maxvotek | linkedin | substack
❤17🔥9⚡6✍6👍4🏆1🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
🤣52💯12😁7❤3🤯2👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Gizmo: TikTok для вайбкодеров
Vibe-coding окончательно ушел в народ. Появилось приложение Gizmo — это вертикальная лента а-ля TikTok, но вместо видосиков там интерактивные мини-приложения.
Суть простая: ты тыкаешь в экран, перетаскиваешь объекты и решаешь задачки.
Это такие цифровые «игрушки» (мемы, пазлы, анимации), которые создаются чисто промптами.
Написал «хочу игру про спасение капибары» — и ИИ генерит работающий интерактив в ленту.
Цифры подтверждают, что затея годная: 600к установок за полгода почти без маркетинга, причем 40% из них,- в декабре.
TikTok приучил нас к 15-секундным дофаминовым видео, а Gizmo превращает их в микро-игровые сессии.
Переход от «посмотрел пост» к «поиграл в пост».
Это, кстати, полностью укладывается в тренд живых интерфейсов, которые мы обсуждали последние пару недель.
Gizmo-vibeapp-TikTok сформирует привычку и через пару лет все приложения будет работать только так.
#AI #VibeCoding #MicroApps #TikTok
------
@tsingular
Vibe-coding окончательно ушел в народ. Появилось приложение Gizmo — это вертикальная лента а-ля TikTok, но вместо видосиков там интерактивные мини-приложения.
Суть простая: ты тыкаешь в экран, перетаскиваешь объекты и решаешь задачки.
Это такие цифровые «игрушки» (мемы, пазлы, анимации), которые создаются чисто промптами.
Написал «хочу игру про спасение капибары» — и ИИ генерит работающий интерактив в ленту.
Цифры подтверждают, что затея годная: 600к установок за полгода почти без маркетинга, причем 40% из них,- в декабре.
TikTok приучил нас к 15-секундным дофаминовым видео, а Gizmo превращает их в микро-игровые сессии.
Переход от «посмотрел пост» к «поиграл в пост».
Это, кстати, полностью укладывается в тренд живых интерфейсов, которые мы обсуждали последние пару недель.
Gizmo-vibeapp-TikTok сформирует привычку и через пару лет все приложения будет работать только так.
#AI #VibeCoding #MicroApps #TikTok
------
@tsingular
🆒9✍7❤6😢6👍3👨💻2🔥1
Forwarded from e/acc
Я сделал компилятор Людей в AI агентов :)
Он проводит глубокое интервью с любым сотрудником через 8 структурированных фаз, читает артефакты из Slack, Notion и Gmail, извлекает неявные знания, алгоритмы и паттерны — и компилирует загружаемого, бесконечно масштабируемого цифрового человека в виде Skill для Claude Marketplace, который вы можете в 1 клик загрузить в Claude Cowork/Code.
Скачать можно здесь: https://github.com/Gerstep/HumanCompiler/tree/master
P.S. сделал в шутку, но мне уже пара человек написали, что им было полезно
Он проводит глубокое интервью с любым сотрудником через 8 структурированных фаз, читает артефакты из Slack, Notion и Gmail, извлекает неявные знания, алгоритмы и паттерны — и компилирует загружаемого, бесконечно масштабируемого цифрового человека в виде Skill для Claude Marketplace, который вы можете в 1 клик загрузить в Claude Cowork/Code.
Скачать можно здесь: https://github.com/Gerstep/HumanCompiler/tree/master
P.S. сделал в шутку, но мне уже пара человек написали, что им было полезно
😁28👍9🤯8
Минутка анонсов.
4️⃣ марта планирую быть на конференции «Цифровая инфраструктура — 2026» в качестве участника дискуссии.
Место проведения:
Звезды Арбата
Москва, Новый Арбат, 32
📣 Поговорим про инфраструктуру для AI, про AI-агентов и как не сломать всё и сразу 😉
👉 Программа и регистрация: https://www.osp.ru/lp/infrastructure2026
Почему это может быть интересно:
☝️труднее всего «лечатся» ошибки, сделанные на этапе проектирования.
Это на 💯 относится к инфраструктурным ошибкам (GPU-контур, данные, доступы, наблюдаемость, стоимость) — такие промахи лечатся кварталами❗️
На конфе будут обсуждаться темы, которые как раз эти проблемы помогут закрыть:
🔹 Инфраструктура для AI: модели предоставления (on-prem / облако / гибрид) — где прячутся подводные камни и где скрываются реальные затраты
🔹 HPC как сервис: ускоряем R&D без «очередей на GPU» и танцев с бубнами вокруг ресурсов
🔹 10 угроз для корпоративных AI-агентов — от утечек и лишних прав до опасных инструментов, и как их минимизировать эффективно
🔹 AI для мониторинга и управления инфраструктурой: больше видим, меньше ошибаемся
Полезные ссылки:
💪 лучшая цена: https://www.osp.ru/static/2025070907
✍️ чат конференции: https://t.me/infrastr20xx
#AI #конференции #MLOps #инфраструктура #HPC #безопасность #observability #OSP
———
@tsingular
4️⃣ марта планирую быть на конференции «Цифровая инфраструктура — 2026» в качестве участника дискуссии.
Место проведения:
Звезды Арбата
Москва, Новый Арбат, 32
📣 Поговорим про инфраструктуру для AI, про AI-агентов и как не сломать всё и сразу 😉
👉 Программа и регистрация: https://www.osp.ru/lp/infrastructure2026
Почему это может быть интересно:
☝️труднее всего «лечатся» ошибки, сделанные на этапе проектирования.
Это на 💯 относится к инфраструктурным ошибкам (GPU-контур, данные, доступы, наблюдаемость, стоимость) — такие промахи лечатся кварталами❗️
На конфе будут обсуждаться темы, которые как раз эти проблемы помогут закрыть:
🔹 Инфраструктура для AI: модели предоставления (on-prem / облако / гибрид) — где прячутся подводные камни и где скрываются реальные затраты
🔹 HPC как сервис: ускоряем R&D без «очередей на GPU» и танцев с бубнами вокруг ресурсов
🔹 10 угроз для корпоративных AI-агентов — от утечек и лишних прав до опасных инструментов, и как их минимизировать эффективно
🔹 AI для мониторинга и управления инфраструктурой: больше видим, меньше ошибаемся
Полезные ссылки:
💪 лучшая цена: https://www.osp.ru/static/2025070907
✍️ чат конференции: https://t.me/infrastr20xx
#AI #конференции #MLOps #инфраструктура #HPC #безопасность #observability #OSP
———
@tsingular
1🔥10❤3⚡3✍3👍2
Запись и презентации с MoscowAI.
https://vkvideo.ru/video-167479002_456239505
#MoscowAI
------
@tsingular
https://vkvideo.ru/video-167479002_456239505
#MoscowAI
------
@tsingular
VK Видео
MoscowAI #5 x Школа 21 — AGI на горизонте двух митапов
Программа митапа: Second Brain AI: как я делегировал рутину AI-агентам с Claude Code. Александр Ярыгин, основатель агентства измеримых AI-решений и автор блога От демо к продакшену: что ломается в background agents на реальных задачах. Максим Шаланкин, ML…
👍8❤5🔥3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за фейссвопперы.
Seedance 2.0 просто убийственно хорош.
@cgevent
Seedance 2.0 просто убийственно хорош.
Replace the model in the eyewear e-commerce promotional videoVideo 1with a Western (European/American) model, referencing the appearance in Image 1. Change all spoken language to English, while keeping the original character actions, performance timing, and camera movement unchanged
@cgevent
1🔥20 3
Gemini 3.1 Pro: Рывок к AGI
Google выкатил минорный апдейт 3.1, который по цифрам выглядит как «дошлифовка», а по фактам — это уничтожение конкурентов в зоне агентского интеллекта.
Тот случай, когда «.1» в версии значит больше, чем смена поколения у других.
Факты:
🧩 ARC-AGI-2: 77.1% (против 31.1% у версии 3.0). Это самый жесткий бенчмарк на «абстрактное мышление» (задачи, которые ИИ никогда не видел). Прыжок в 2.5 раза. Google официально перестал просто «предсказывать токены» и начал по-настоящему рассуждать.
⚙️ Агентский кодинг (SWE-Bench): 80.6%. Модель теперь на равных (а кое-где и лучше) бьется с Claude 4.6 Sonnet и GPT-5.2. Для нас это значит, что автономные разработчики на Gemini теперь — база, а не эксперимент.
🖇 MCP Atlas: 69.2%. Модель нативно понимает протокол MCP (Model Context Protocol).
Почему это важно:
Версия 3.0 была «хорошим мультимодальником». 3.1 стала «профессиональным агентом». Рост в APEX-Agents (сложные долгосрочные задачи) с 18% до 33% — это подтверждение того, что эра чат-ботов окончательно сменилась эрой агентов исполнителей.
Ждём ответа OpenAI. Как и предполагалось, - Китайские разработчики выстрелили перед КНГ, а Западные сразу после, чтобы "потушить" эффект.
#Gemini #Google #DeepMind #AI #Agents
───
@tsingular
Google выкатил минорный апдейт 3.1, который по цифрам выглядит как «дошлифовка», а по фактам — это уничтожение конкурентов в зоне агентского интеллекта.
Тот случай, когда «.1» в версии значит больше, чем смена поколения у других.
Факты:
🧩 ARC-AGI-2: 77.1% (против 31.1% у версии 3.0). Это самый жесткий бенчмарк на «абстрактное мышление» (задачи, которые ИИ никогда не видел). Прыжок в 2.5 раза. Google официально перестал просто «предсказывать токены» и начал по-настоящему рассуждать.
⚙️ Агентский кодинг (SWE-Bench): 80.6%. Модель теперь на равных (а кое-где и лучше) бьется с Claude 4.6 Sonnet и GPT-5.2. Для нас это значит, что автономные разработчики на Gemini теперь — база, а не эксперимент.
🖇 MCP Atlas: 69.2%. Модель нативно понимает протокол MCP (Model Context Protocol).
Почему это важно:
Версия 3.0 была «хорошим мультимодальником». 3.1 стала «профессиональным агентом». Рост в APEX-Agents (сложные долгосрочные задачи) с 18% до 33% — это подтверждение того, что эра чат-ботов окончательно сменилась эрой агентов исполнителей.
Ждём ответа OpenAI. Как и предполагалось, - Китайские разработчики выстрелили перед КНГ, а Западные сразу после, чтобы "потушить" эффект.
#Gemini #Google #DeepMind #AI #Agents
───
@tsingular
1🔥24👍7❤4✍1😁1