Заместители
2.77K subscribers
150 photos
109 videos
4 files
184 links
Цех ИИ агентов. Здесь я тестирую цифровых заместителей в разных профессиях. По пути обсуждаем актуальные новости про ИИ агентов простым языком.
Добро пожаловать в эру замещения.
Запросы -> aideputies_collab@agentmail.to.
Download Telegram
Не промптом единым богаты: как строить stateful AI агентов

Продолжаем курс про AI агентов. Серия 3.1 Context Engineering, Sessions, Memory

Если вы освоили промпт-инжиниринг, то вы уже большой молодец. Но как только вы хотите сделать сколько-нибудь умного агента, вы столкнетесь с проблемой – просто промпта недостаточно. Вам нужно, чтобы агент запоминал и потом использовал доп информацию. Это называется инжиниринг контекста.

В UI любой современной LLM эта проблема решена за вас в рамках 1 чата, группы чатов (как в "проектах" в ChatGPT) или в целом для вас как юзера (загляните в настройки профиля в вашей LLM в раздел "memories"). Но если вы строите собсвтенного агента — то вам придется нырнуть глубже в кроличью нору. Так что ныряем 👌

Теория

Stateful — означает, что система помнит, что было раньше. По сути, именно к таким агентам мы чаще всего и стремимся. А stateless — это базовое состояние LLM. Она ничего не помнит и не знает за пределами одного своего расчета. То есть ответила на ваш вопрос, а следующий запрос — с чистого листа.

Так вот чтобы построить stateful агента нам понадобятся 3 компонента:
1. Инжиниринг контекста (Context Engineering) — подготовка и управление информацией, которая передается в LLM в рамках ее контекстного окна (=1 запроса)
2. Работа с сессиями (Session) — контейнер, который содержит историю всего диалога с LLM.
3. Работа с памятью (Memory) — механизмом, который позволяет организованно и долгосрочно хранить информацию из нескольких сессий.

Context Engineering

Чтобы помочь агенту добиться воспроизводимого качественного результата, например, для ризонинга мы наполним его контекстное окно:
• Системным промптом
• Определением тулов, которые он может дергать
• Few-Shot примерами ожидаемого результата

Для разных задач наполнение контекстного окна будет разным.

Цикл управления контекстом состоит из трех шагов:
1. Собрать необходимый контекст под конкретный запрос юзера (воспоминания, файлы и тд)
2. Собрать промпт из собранного контекста
3. Дернуть LLM и тулы, чтобы подготовить ответ пользователю
4. Загрузить получившийся контекст во временное харнилище (сессию). А потом и постоянное хранилище — память.

Sessions

Сессии — это фундаментальный блок беседы с агентом. Она состоит из:
Событий — сообщений юзера и агента, вызова тулов, полученных данных и тд.
Состояний — это краткосрочная память агента в рамках одной беседы. По мере развития беседы агент будет дополнять эту память событиями.

За одну сессию можно во много раз переполнить контекстное окно модели. Поэтому приходится выбирать, что оставить, а что обрезать. Для этого есть пара подходов:
• Оставить N последних событий или X токенов в контексте
• Рекурсивная суммаризация — старые части переписки суммаризуются и передаются в контекст в сжатом виде.

Memory

Память очень похожа по устройству на Сессии, но она долгосрочная. Это то, что агент запомнит навсегда (пока не почистят память).

Хранят воспоминания в разных форматах. Распространены два вида:
Векторные БД — в них воспоминания находятся по семантической близости к запросу юзера. Подходит, когда заранее не понятно, какая будет структура воспоминаний.
Графовые БД — из воспоминаний строится граф, где воспоминание это нода, а ребро — это связь между нодами. Подходит для случаев, где нужно больше структуры.

Чтобы менеджить воспоминания могут использоваться как встроенные во фреймворк (типа ADK) инстурменты, так и использовать внешние инструменты (типа Agent Engine Memory Bank, Mem0). А сам асинхронный цикл генерации памяти выглядит так:
Извлечение и фильтрация — менеджер памяти использует LLM, чтобы из предоставленного контекста (истории сообщений) извлечь инфу по выбранному разработчиком топику ("описание юзера").
Консолидация и сохранение — менеджер памяти сравнивает извлеченные знания и обновляет память (создает новые, редактирует или удаляет воспоминания).

Ну и я крайне рекомендую почитать оригинальный whitepaper, на базе которого был сделан этот пост. Ибо я попытался вынести самое важное из документа на 70 страниц... 😁

Теперь покодим!

#ИИученьесвет
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83111
Практика

Наша задача построить агента, который может запоминать происходящее в рамках сессии и переживать рестарт, возвращаясь к сессии.

1. Как обычно копируем и запускаем поэтапно ноутбук, в котором уже все готово. Как всегда, нужно настроить GOOGLE_API. После чего можно прокликать первую секцию ноутбука — там устанавливается ADK и написаны разные вспомогательные функции. Дальше интересное.
Раньше мы уже импортировали
google.adk.sessions.InMemorySessionService
и
google.adk.runners.Runner
, но сегодня мы делаем это осознанно ☕️
InMemorySessionService — управляет данными в рамках сессии. В ADK несколько вариантов этих сервисов.
Runner — оркестратор, который управляет потоком данных между агентом и юзером и собственно занимается инжинирингом контекста.

2. Запускаем секции 2.4 и 2.5. Там демонстрируется работа обычного InMemorySessionService. Подается два сообщения по порядку. В первом юзер представляется. А во втором спрашивает агента, как его зовут — агент корректно отвечает, потому что InMemorySessionService сохранил сообщение юзера в стейте.
Чтобы увидеть, как работает память внутри сессии (и не работает за ее пределами) можно запустить секцию 2.6 сразу — агент снова скажет как зовут юзера. Но если вы перезапустите ноутбук и пропустите запуск сессии, то естессно голая LLM не скажет как зовут юзера.

3. Переходим к примеру постоянных сессий с использованием баз данных:
google.adk.sessions.DatabaseSessionService
. Так воспоминания переживут перезапуск, тк агент сохранит память в БД (тут — в SQLite). В секции 3 запускаем такого агента.
Все благодаря двум строчкам, которые определяют в рамках сессии БД:

session_service = DatabaseSessionService(db_url=db_url)

Тут БДшка создается сама, но в реальной жизни вам придется ее развернуть своими руками. Запускаем ячейку 3.2 — агент с БД создан.
Тестируем: запускаем ячейку 3.3 — юзер снова представился агенту, это все записалось в сессии под именем
"test-db-session-01"
в БД. Вы можете полностью выключить ноутбук и снова его прокликать, но пропустить шаг 3.3 — и запустить сразу 3.4, где у агента снова спрашивают как зовут юзера и дают указание на сессию
"test-db-session-01"
— агент успешно вытаскивает имя пользователя из БД. Вот в этом сила сохранения в БД!
Соответсвенно, если поменять имя сессии — то агент ничего не вспомнит.
А в ячейке 3.6 можете посмотреть, как данные хранятся в БД.

4. Когда сообщений в БД накапливается слишком много (а происходит это быстро) — мы начинаем сжимать воспоминания. Делаем это банально с помощью суммаризации. В ADK для этого есть отдельный механизм внутри приложения, в котором находится агент:

google.adk.apps.app.EventsCompactionConfig

В ячейке 4.1 показано как создается такой конфиг. Прокликайте до 4.3 включительно: там вы увидите в каком виде саммари создается и заменяет в контексте агента суммаризованную информацию. Вы можете настраивать как часто запускать суммаризацию (каждые N запусков/токенов и тд). В документации ADK описано детальнее как еще можно управлять суммаризацией. Смысл везде будет схожий.

5. В секции 5 демонстрируется, как управлять внутри сессии стейтом (state). Для этого используется объект
google.adk.tools.tool_context.ToolContext
. С помощью функции
save_userinfo
в него записывается инфа, а с помощью функции
retrieve_userinfo
она достается.
Соответсвенно в ячейке 5.2 создается агент, которому в качестве тулов передаются эти две фнукции. И теперь агент может сам решать, когда записывать инфу, например имя и страну пользователя, а когда ее доставать. Потестить это можно в ячейках 5.3-5.5.
А еще можно шарить state между сессиями в рамках одного юзера и аппки. Это показано в ячейке 5.6.

Ну что, вы пережили прямо таки глубокое погружение в агентов — так держать! А в следующей серии разберем долгосрочную память. Stay tuned 😎

#ИИученьесвет

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍941🔥11
Media is too big
VIEW IN TELEGRAM
Говорливый AI приближает всевидящих роботов

Когда создаются AI боты для звонков — на бумаге все гладко. Все демки выглядят волшебно. Но в реальной жизни разработчики сталкиваются с банальной проблемой — все эти боты звучат неестественно. Они легко сбиваются, когда юзер их перебивает, делают паузы, чтобы "переварить" речь юзера и наоборот невпопад начинают диалог после странных пауз. В общем звучит это все достаточно очевидно эй-айно.

Исправляют это костылями — в отдельном аудио канале запускают фоновый шум, добавляют паузы в скрипты боту, добавляют междометия типа "эээ", "гм" и тд. Все, чтобы срезать углы и добиться более естественного флоу диалога.

В 2024 году выкатили базовую модель Moshi на 7B параметров. Вот тут можно поговорить с ней, правда говорит она только на инглише. Такие модели называют "full duplex" — они одновременно могут и слушать и говорить, не теряя нить разговора. Собственно, как и человеки!

Дальше по этому пути потянулись и другие. Предположительно в голосовых GPT и Gemini используется нечто похожее — точную архитектуру они не раскрывают. Но на мой взгляд, все равно присутствует это кринжовая пауза. ChatGPT Voice обычно не перебивает и не "забирает микрофон" у юзера, хоть и отвечает с минимальной задержкой. Зашитое ли это правило "вежливости" или ограничение модели — неясно.

Буквально в ноябре 2025 Liquid выпустили свою базовую модель LFM 2 Audio-1.5B. Почему-то по метрикам она выше, чем Moshi. На практике попробуйте сами поболтать. У меня она жестко тупит. Но она опенсорсная — а кто мы такие, чтобы осуждать опенсорсные модели?! В каждом саду нужны разные цветы (кхм, или как там говорят 😈).

И вот на днях Nvidia релизнула свою модельку, которая построена на основе Moshi — PersonaPlex 7B. Поговорить с ней негде. Надо разворачивать для этого. Но можно посмотреть и послушать демки от разработчиков. Ключевое преимущество перед самой Moshi — это жесткое следование "роли". При этом есть вариабельность и самих голосов. И самое приятное — это опенсорс. Поэтому можно забирать ее на HuggingFace и использовать в своем проекте. С точки зрения флоу диалога — звучит она, пожалуй, наиболее естественно из всех имеющихся на рынке (если не обвешивать их свистульками, как я описывал выше, а сравнивать сырые модели). Перебивает, "активно слушает", отбирает реплику у юзера, как это делал бы человек. И при этом отыгрывает свою роль.

Куда это все движется?

Задался я вопросом. И ответил себе: очевидно, сначала к неотличимым от реальных людей AI-собеседникам. Модельки будут не просто звучать естественно, они будут поддерживать естественную для человека динамику разговора.

Дальше интереснее. Параллельно этому будут развиваться мультимодальные модельки, которые генерят и воспринимают видео+аудио по такому же принципу "full duplex". Активный рисерч в этом направлении уже идет. Тогда у вас в зуме будет не просто бот, который замолкает от каждого вашего звука, а полноценный собеседник, который по ощущениям будет иногда "пушить" вам свою реплику, а еще будет одновременно следить за вашими эмоциями на лице, за вашим окружением и моментально на это реагировать. Представьте, вы что-то говорите, к вам в кадр запрыгивает ваш кот — и ИИ собеседник, видя это, перебивает вас и говорит "оуууу, какой пушистик!". Точно, как сделал бы ваш друг.

Тут же можно прикинуть, что будет дальше. А дальше это все дополниться аналогичными моделями для данных с сенсоров и загрузится на роботов.

Так сейчас неуклюжие роботы, в будущем получат инструменты для взаимодействия с миром скорее всего лучше, чем у человека, т.к. не будут ограничены "вниманием", как человек. Мозг человека, как вы знаете, намеренно не обрабатывает большую часть информации, поступающей через органы восприятия, чтобы не перегреть котелок. А у робота такого ограничения не будет. Всеобъемлющее восприятие + моментальный учет всего и реакция на опережение.

На практике: робот который все видит, слышит, чувствует, знает и предсказывает ваши движения, желания и намерения.

Во, как меня занесло с простого релиза модельки Nvidia 😁

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍76🤔5221
Media is too big
VIEW IN TELEGRAM
OpenAI презентовали Prism — здравствуй Junk Science или вайб-написание научных статей?

OpenAI презентовали, по сути, IDE для написания научных статей на LaTeX со встроенным AI агентом — Prism. Любой, кто попробовал LaTeX, не может остаться к нему равнодушным — и либо влюбляется в него, либо его ненавидит. Для остальных поясню — это язык верстки PDF документов, который стал стандартом в написании статей для публикации в научных журналах.

Так вот OpenAI поглотили стартап Crixet, и на его базе выкатили Prism. И теперь вы можете написать такую статью в красивом LaTeX оформлении вообще не зная LaTeX. Потому что за вас его напишет AI агент 👌

Тестим-с

Все что нужно — это описать, о чем вы хотите написать или вставить текст. У меня как раз лежал такой текст, который я решил оформить в статью. Загрузил его, а дальше AI агент:
• оформил текст в LaTeX код
• сделал рерайт текста
• по моей команде внес правки в документ
• подсветил в явном виде, какие изменения были сделаны по строчкам
• я ему подгрузил скриншот таблички из обзора литературы, который делал, когда показывал вам как работает Consensus — AI агент распознал инфу на скриншоте и сгенерил табличку с данными с картинки в LaTeX.

Есть странный косяк: когда включаешь Voicemode — голосовой агент работает просто как транскрибатор моей команды, которая передается в чат и успешно исполняется. В то же время сам голосовой агент об этом ничего не знает и прямо в этот же момент противным голосом справшивает: а куда, мол, правки то вносить? — Дай текст, дядя!

UX очень приятный и продуманный. Видно, что работа с агентами для кодинга не прошла мимо. У вас есть проект, в нем файлы, и файл main — который и компилируется в PDF справа в специальном вьюере. AI можно вызвать как к конкретной строчке кода, так и использовать его как агента, который в курсе обо всех файлах внутри проекта.

При этом проект можно пошарить с коллегами, которые могут работать вместе с вами над одной статьей. Ну, мед!

Что теперь будет с научными статьями?

Соблазн юзать LLM для написания статей был итак велик. Но можно себя было бить по рукам, успокаивать, что я только грамматику проверю. А инструменты типа Consensus тем и хороши, что они не пишут статью — они помогают найти информацию для этого.

Теперь же устоять будет невозможно! Писать статью в Prism, уверен, станет стандартом. Слишком уж это удобно. А значит AI станет повсеместным напарником в их написании. И, вангую, мусорных AI статей прирастет прямо знатно!

Теперь OpenAI нужно идти к редакторам журналов и продавать им таблетку от собственноручно запущенного вируса: "поможем сделать факт чек и написать рецензию на статьи, которые внезапно все стали бессовестно генерить в LLM" 💰

Кто-то может сказать: "А что плохого-то в том, что статьи пишут с помощью LLM? Чем статья хуже кода, где это только приветствуется?" На это у меня два ответа:
Во-первых, в научных статьях нет тестирования, как в коде. Нет такого, что ты сгенерил фуфельную статью, а она "не запускается". Тут ровно наоборот — пыль в глаза накидал и куча неверных деталей спокойно пролетает мимо ревьюеров.

Во-вторых, Junk Science это уже случившийся факт. Количество статей с использованием LLM за последние годы прирастает двухзначными (а некоторые рапортуют и трехзначными) цифрами. При этом научная новизна в них не растет, а цитируемость статей растет (т.к. AI лучше находит релевантные статьи). То есть ученые с помощью LLM просто переписывают и цитируют друг друга. Почему? А потому что ученые дуреют с весьма конкретной прикормки — с цитируемости. А значит цель написать не качественную статью, а статью, которую будут цитировать. А, как известно, LLM лучше всего цитируют тексты, которые пишут другие LLM (посмотрите, куда это привело vc.ru — там алгоритмы разгоняют LLM-слоп только в путь 💸). Получается: генери статьи с помощью LLM, чтобы чужие LLM потом цитировали тебя — профит 📈

А вы что думаете — AI написание статей — упрощение жизни и благо или тупиковая ветвь развития научных публикаций?

#заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
111👍73🔥111
Есть чему поучиться: OpenAI рассказали, как сделали внутреннего AI агента для анализа данных

Буквально вчера OpenAI выложили статью, которая сразу вошла в must-read для меня и моей команды. Они разложили по полочкам, как работает их внутренний AI агент, котрого используют сотрудники OpenAI, чтобы анализировать петабайты данных, с которыми работают в компании, без кода! Разбираем!

Что за аналитик данных?

В OpenAI идет работа с 600 петабайтами (=614 400 терабайт) или 70К датасетов. Представьте какая жесть новому, или даже старому сотруднику, разобраться, где искать какие данные, чем отличается одна табличка от другой и тд.

AI агент — это и есть умная прослойка, которая помогает не только найти нужные данные, но и узнать все необходимое об этих данных и даже сразу проанализировать. Юзеру остается правильно формулировать вопросы на человеческом языке ☀️

Архитектура у агента верхнеуровнево очевидная: есть БДшки, из которых AI агент тянет данные, анализирует их, проверяет себя и выдает результат юзеру. Но самая магия начинается в правильном контекст-инжиниринге. Кто хочет глубже разобраться в построении контекста — как раз недавно был про это пост

6 уровней контекста

Так вот сила агента в том, что его контекст строится из 6 уровней:
1. Использование таблиц. Агенту, естессно, доступны метаданные о таблицах и колонках. Но еще важнее — он может подглядеть в историю SQL-запросов к этим табличкам, чтобы понять, как их обычно строят, как джоинят разные таблички и тд.
2. Семантический слой. Оно же человеческое описание всех табличек, колонок, сущностей, в которых отражается смысл, связи, бизнес-значния.
3. Обогащение кодом. Агенту дается не только описание табличек и SQL запросы, но и кодовая база, где эти таблички используются. Из нее агент лучше понимает контекст применения табличек в реальных исследованиях, продуктах и тд.
4. Институциональные знания. У агента есть доступ к знаниям в Slack, Google Docs, Notion — системам в которых OpenAI хранят ключевые знания о происходящем в системах и данных. То есть агент оттуда может узнавать статус работы систем, инфу о сбоях, глоссарий и тд. Все доступы к документам определяются на уровне пользователя, а не агента. То есть агент тут просто как интерфейс взаимодействия с acсess management system.
5. Память. Агент запоминает инсайты по тому, как пользоваться данными. И сохраняет их либо на глобальном уровне, либо на уровне юзера. Интересно, что сохраняет он их с одобрения юзера. Таким образом память не засоряется фигней.
6. Контекст рантайма. Все предыдущие знания готовятся заранее в оффлайне. Но иногда их не хватает (или их просто нет) — тогда агент может написать прямо в рамках текущего запуска квери к табличке или системе метаданных и собрать нужную информацию, так сказать, без подготовки.

Многим кажется, что агенты работают как магический черный ящик — загрузил в него все данные, а он сразу выплюнул то, что нужно. Но это не так. Я постоянно сталкиваюсь с этим недопониманием. Построение реально работающих агентных систем — это квест, в котором много подготовительной работы, много слоев контекста, много инфраструктурной работы, работы с данными. На выходе получается большой и сложный механизм, но именно тогда оно начинает работать.

Это не значит, что сразу нужно пытаться построить такую кракозябру. Начинать нужно, как всегда, с малого. Но и результаты будут соответствующие, поэтому умерьте ожидания ключевых стейкхолдеров! Теперь у вас есть авторитетная статья, которую можно показать им как пруф 😈

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1243🔥211
Media is too big
VIEW IN TELEGRAM
OpenClaw — установка и настройка за 30 мин

Интернет взорвался. Опенсорнсый проект ClawdBot->MoltBot->OpenClaw (беднягу 2 раза переименовали, сначала по просьбе Anthropic, а потом, чтобы звучало лучше) покорил всех своей настраиваемостью, гибкостью и самое главное — производительностью! Что ж там за чудо такое заморское? Рассказываю и показываю как его установить и настроить.

Что это и зачем?

OpenClaw — это опенсорсная обертка, чтобы превратить любую LLM в мощного AI агента. Вы даже можете это сделать полностью локально, не отдавая данные и деньги вендорам ИИ. А еще вам вообще не нужны навыки кодинга. Да, терминал открыть придется, но вы справитесь – обещаю ❤️

Раньше всем сносило крышу от n8n, потому что закрывал те же болевые точки. Обе штуки для тех, кто не хочет погружаться в код. Оба инструмента являются некой оберткой вокруг базовых AI моделей (типа GPT, Gemini, Claude), которая дает "руки" и права этим моделям. Но есть и отличие: n8n и аналоги не дают хорошего "стартового пакета". Поэтому юзерам сложно начать с ним работать — установил ты n8n, а что дальше? Дальше — пропасть до реально работающего "заместителя".

В OpenClaw пошли от обратного. Настройка базового OpenClaw бота сильно геморойней, чем создание первого воркфлоу в n8n, но полученный первый результат сразу заставляет вас почувствовать потенциал!

Пройдя квест, описанный ниже, ваш AI агент будет с вами общаться в телеге через бота. Он сможет понимать ваши голосовые сообщения в ТГ и управлять вашим браузером и компом. Звучит по-мощнее, чем настройка воркфлоу в n8n, не так ли? 😈

Не пускайте клешни, куда не надо!

Но перед тем, как мы настроим с вами базового OpenClaw бота, важный момент: бота нужно запускать осторожно! Он, как и все другие LLM агенты, подвержен промпт-иньекциями, подставным ссылкам и тд. Я детально описывал, что грозит при неаккуратном использовании AI агентов в посте про Scamlexity! Сейчас он актуален, как никогда. Обязательно прочитайте.

В идеале, OpenClaw нужно запускать на отдельной железке (в сети популярен буржуйский подход — купить mac mini под это дело). Есть и вариант запустить его в облаке. Где бы вы его не запускали OpenClaw сам распознает вашу ОС и адаптирует процесс установки (но нативнее всего работает на Mac), поэтому цепляться именно за mac mini точно смысла нет.

Часть 1. Расчехляем клешни лобстера

При первом запуске OpenClaw можно сразу настроить базового AI агента. Сейчас сделаем это с API ключами к онлайн провайдерам. А в отдельном посте я расскажу, как запускать все чисто локально на Ollama — это отдельный жирный плюс данного агента 😎

Первым делом запускаем простую установочную команду в командной строке/терминале:
curl -fsSL https://openclaw.ai/install.sh | bash


По идее все устсновится само. Но зачастую будут возникать какие-то трудности там-сям (например с установкой Homebrew или npm пакетов). Это нормально, через это проходят все, кто запускает опенсорс проекты 😁. Тут нет единого рецепта — просто обратитесь к вашей любимой LLM с запросом: "я устанавливаю OpenClaw, у меня вылезла вот такая ошибка "копи-паст ошибки", помоги".

В посте ниже продолжение с настройкой и запуском агента.

#заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
111🔥3211
Часть 2. Настраиваем лобстера

Внимание — сначала прочитайте предыдущий пост!


Настройка начнется автоматически (а если нет, позовите ее командой "openclaw onboard"). Далее по порядку:
1. Примите сообщение о рисках (ну или не принимайте — но тогда ) и выберите Onboarding Mode: "QuickStart".
2. Далее вам будет предложено выбрать основную модель, по сути мозги вашего бота. Выбираете ту, что у вас оплачена собссно. Лучшая — Claude Opus 4.5, но у меня напримр оплачен ChatGPT — я выбрал OpenAI. В зависимости от провайдера у вас попросят либо токен, либо авторизацию через браузер.
3. Дальше, когда вам предложат выбрать канал — выбираем Telegram. Нам надо создать бота в телеге, через который вы будете обращаться к вашему агенту. Для этого идем в телегу и в поиске ищем @BotFather. В нем очень просто создаем нового бота. Копируем оттуда токен и возвращаемся в терминал – вставляем туда. Чтобы его верифицировать — следуем инструкциям в терминале. Все, бот настроен — теперь вы можете ему писать прямо в ТГ.
4. Далее подключаем скилы. Выбираем опцию "npm". Из предложенного списка можно выбрать "Skip for now" и потом настраивать скиллы уже через UI. Так просто удобнее.
5. Далее будет предложено подключать API ключи — можно скипать все до раздела Hooks.
6. На вопрос Enable hooks? отмечаем все три. Хуки это маленькие скрипты, которые активируются при каких-то действиях. В данном случае речь только про локальные хуки, которые сохраняют память сессии, логируют ваше общение с ботом и запускают бота.
7. Далее важный шаг: установка Gateway. Через гейтвэй агент запускает все и в целом общается с миром. Дальше нужно выбрать "Hatch in TUI" — и ТА-ДАМ! Открывается браузер, а там ваш AI агент, ждет команд в чате.

Базовая настройка завершена — поздравляю! Ваш лобстер готов к приключениям 😏

Допы

Осталась парочка доп штук, которые сразу дают +100500 баллов к юзабилити бота:
Во-первых, подключим браузер к агенту. Но уже сделаем это без рук! Просто пишем в чат бота в открывшемся окне браузера: "Open the folder assets in openclaw on this computer, where chrome-extensions are". Хобана — бот открывает у вас на глазах папку на вашем компе, где лежит папка "chrome-extension".
Далее идем ручками в браузер Chrome -> Extensions -> Справа сверху включаем "Developer mode" -> слева сверху жмем "Load Unpacked" -> перетягиваем ту самую папку, "chrome-extension". Теперь у вас есть раширение, котрое позволяет боту брать управление над браузером тогда, когда вы включили это расширение. Выключили — забрали доступ у агента.
• Во-вторых, настраиваем транскрибацию (команды голосом).
1. Есть платный вариант: в UI агента идем в раздел Skills. В поиске ищем "openai-whisper-api" — там требуется API ключ. Его берем на офф сайте OpenAI. Вставляем в бота и жмем Save key. Проверяем в терминале командой openclaw skills — что этот скилл имеет зеленый статус ready. Если что-то не получилось — спросите вашего агента 👌
2. Второй вариант бесплатный: также через скиллс устаналиваете себе локальную голосовую модельку. В поиске скиллов ищите "openai-whisper".
ТА-ДАМ! Теперь вы можете отправлять голосовые вашему агенту. Он будет их транскрибировать и следовать инструкциям.

ФУХ! Теперь у вас есть свой настоящий передовой AI агент 😮

Поиграйтесь, попробуйте найти границы, что он может делать, а что — нет. Попробуйте поподключать разные скиллы. Главное помните о безопасности!

Настраивать допустимые действия агента через вайтлиист (то есть явно прописывать, что агент имеет права делать на компе можно тут: "~/.openclaw/exec-approvals.json").

И делитесь тем, как у вас получилось, и что вы теперь будете автоматизировать 😎

Ну а я будут дальше раскрывать потенциал лобстера и делиться с вами — stay tuned! Кстати, в планах отправить малыша в агентную соцсеть Moltbook

#заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥742111
Друзья, последние два поста надо читать по очереди ☕️
Первая часть — OpenClaw — установка и настройка за 30 мин
Вторая часть — Настраиваем лобстера
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍921
Claud Cowork представил плагины с агентами-специалистами

Пока мир сходит с ума с КлодБотом, Anthropic напоминает, кто тут реальный Клод, и как он умеет в ботов! В рамках своего проекта Cowork (рассказывал о нем тут), Антропик выкатили плагины — обертку вокруг нескольких скилов, которые вместе дают эффект "ИИ агента-специалиста".

Как это работает?

Плагины уже некоторое время существуют для Claude Code. Cowork же, как наследник, получил, по сути, ту же фичу для непрограммистских задач.

Плагин — это комбинация скилов, которые в свою очередь юзают саб-агентов и тулы. Для юзера это просто набор преднастроенных команд, которые вызываются одной кнопкой прямо из чата. А под капотом эти команды мапятся на соответствующий скил и решают рутинные комплексные и специализированные задачи.

Например, у агента продакт-менеджера команда "/write-spec" запустит скил "feature-spec", который производит на свет спецификацию фичи, автоматически подтягивая весь необходимый контекст через коннекторы из Slack, Notion, Figma, Jira, Confluence и тд.

Все это дело доступно как для личного пользования, так и в энтерпрайз версии (чуть позже выкатят).

Причем сразу дали 11 опенсорсных реализаций (по сути разных комбинаций из скиллов, тулов и саб-агентов):
Личный помощник — управление задачами, календарями и повседневными рабочими процессами.
Просто корпоративный поиск — поиск информации во внутренних инструментах и документах компании.
Продажник — исследование потенциальных клиентов, подготовка сделок и сопровождение процесса продаж.
Финансист — анализ финансовых показателей, построение моделей и отслеживание ключевых метрик.
Аналитик данных — выполнение запросов, визуализация и интерпретация наборов данных.
Юрист — проверка документов, выявление рисков и контроль соблюдения требований.
Маркетолог — подготовка контента, планирование кампаний и управление запусками.
Служба поддержки — сортировка обращений, подготовка ответов и поиск решений.
Продакт-менеджер — написание спецификаций, приоритизация дорожной карты и отслеживание прогресса.
Биолог-исследователь — поиск литературы, анализ результатов и планирование экспериментов.


Посмотреть опенсорсные плагины можно тут. А в UI они будут доступны прямо в Cowork для всех, у кого есть подписка Claude Pro или выше. И естессно есть тул, чтобы создавать самим такие плагины.

Почему это важно? — Потому что стандартизация

Вот за что люблю Антропик — так это за их системный подход и стандартизацию. Ребята явно почуяли силу такого подхода после того как когда-то выкатили MCP (а недавно, кстати, еще выкатили MCP Apps — пушка гонка, чтобы прямо в чат на ваши сообщения MCP тул мог возвращать элементы UI, то бишь красивые графики, доски, схемы и тд). С тех пор они все дальше и дальше строят стандартизированные абстракции: Skills — как абстракция над тулами, и вот теперь Plugins — как абстракция над Skills.

Видимо, дальше осталось над плагинами уже просто сделать стандартизированную абстракцию агента (хотя есть же уже такие, осталось только все связать воедино). И построение агентов превратится чисто в лего. Причем можно начинать собирать его с любого уровня, т.к. точно насоздают готовых "кубиков" на всех уровнях:
• хочешь — выбирай коннекторы / MCP тулы и дальше все пиши сам
• а можешь сразу выбрать готовые скилы
• или — подключай сразу Sales плагин, и вот тебе готовый набор команд для продажника.

Ну а потом и просто агента подключаешь к своим корпоративным коннекторам — и говоришь "работай!". А там уже в инструкции все написано.

Ну что, ИИ близко подобрался к замене белых воротничков. Страшно? — Не, бояться все еще нечего. Пока что автоматизировать удается только очень выделенные и хорошо структурированные процессы, где есть ожидаемый "вход" и "выход". Кхм, а сколько у вас таких в компании? 😁 Поэтому это все еще просто инструменты.

Так что не очкуем, и учимся активно использовать все эти ИИ-навороты.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
8531
AI идет all in. Сегодня финал чемпионата по покеру между LLM

Kaggle продолжает славную традицию «застольных» соревнований между ИИшками. В прошлом году играли в шахматы, а в этом добавился покер ♣️ и werefolf 🐺 (она же "мафия").

По шахматам и мафии соревнования уже закончились — везде победили модельки гугла — Gemini 3 Pro, Gemini 3 Flash. Рекомендую посмотреть реплей раундов в мафию — для игры сделали прикольную визуализацию и озвучку ходов игроков. Получилось динамично, см. приложенный к посту видосик.

А вот, кто победит в покер — решается сегодня. Но в финале уже остались только GPT-5.2 и GPT o3.

Зачем все это?

Покер, как и шахматы и мафия, — это про тактику, про вероятности и про предсказание поведения соперника. LLM-ки применяют все свои навыки ризонинга, чтобы понять, блефует ли соперник, какой у него стиль игры (а оказывается модельки действительно выбирают стиль игры — кто-то играет агрессивнее, а кто-то мягче), какова вероятность того или иного раскалада и ходов противника.

И пока для обывателя это прикольное зрелище и наглядное объяснение, на каком уровне находится ИИ, для разработчиков — это шикарный бенчмарк. Каждая игра — это не синтетические, реальные неповторимые данные. Игры имеют четкие правила и структуру игры, что удобно для объяснения ЛЛМкам, что от них требуется делать. И, одновременно, всегда понятный и четко измеримый исход: победа/поражение/ничья. В общем, отличный сеттинг для оценки способностей модели 👨‍🔬

LLM такие LLM...

Самое главное, что можно увидеть, на мой взгляд, на этих соревнованиях, это что как бы не нахваливали современные LLM — это все еще Т9 на максималках.

Если смотреть чисто на игру, то можно подумать, что есть какие-то глубокие стратегии, под копотом какая-то магия и тд. Но потом ты заходишь в их "размышления" в логах — а там порой полная шляпа, противоречивые заключения, попытки рассуждать как настоящие игроки, но по факту — просто имитация.

Все потому, что настоящие игроки не просто думают "текстом" — они применяют логику, математику, тактику. ЛЛМкам же по природе своей это дается очень тяжело.

Посмотреть, однако, все равно интересно 🔭 Так что, если хотите наглядно посмотреть, на что способны современные LLM, кроме как найти инфу в интернете или суммаризовать текст, — смотрите игры и читайте логи размышлений моделек.

А если вам интересно мнение профессионального обзорщика покера, то все разложил некий Doug Polk в своем ролике — он официальный партнер соревнований. Рекомендую смотреть через Яндекс браузер со включенным переводом в риалтайме, чтобы не утонуть в покерной терминологии на английском.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥102😁2211
А что собственно происходит? Сразу три крутых апдейта за 3 часа!

Похоже у разработчиков AI синхронизировались релизные циклы 😁

1. Два часа назад вышел новый Claude Opus 4.6.
Больше ризонинга, дольше работает самостоятельно, контекстное окно в 1 млн токенов, можно контролировать «силу размышлений» или давать модели самой решить в режиме «adaptive thinking».

Из интересного:
- Сделали упор на рабочие некодинговые задачи, апгрейднули способности в Excel, выкатили интеграцию с PowerPoint. Логичное продолжение темы с Claude Cowork.
- Сильно улучшили работу с контекстом — теперь модель будет эффективнее сжимать контекст и лучше находить в нем информацию, что в купе с большим контекстным окном должно дать крутой эффект.
- Добавили «команды агентов» — можно запускать параллельно несколько агентов, у каждого из которых своя сессия, а значит независимый «мыслительный процесс». А еще эти агенты будут между собой переписываться и делить задачи, а не дублировать друг друга.

Похоже Claude Opus 4.6 — новый царь горы! 🤴

2. Час назад выкатили новый GPT-5.3-Codex.
Как всегда — быстрее (на 25%), выше (по всем агентном бенчмаркам по версии OpenAI), сильнее (думает и коллаборирует с разработчиком). OpenAI заявляют новую модель как лучшую на текущий момент для кодинга и агентных задач.

Из интересного:
- Тоже большой акцент сделали на использование Codex для некодинговых задач. Мол презентацию сделает, PRD напишет, табличку составит. Видимо, ответка на Claude Cowork.
- А ещё бьют себя в грудь, что это самая заточенная под задачи в области кибербеза. Модель специально учили искать уязвимости в ПО.

А ещё маркетинговая фишка — ранние версии 5.3-Codex использовали в процессе разработки более поздних версий самой себя. Вот такая вот рекурсия…

Похоже GPT-5.3-Codex — новый царь горы! 🤴

А, я это уже говорил?

В общем, по версии Клода — лучшая агентная модель у них, по версии OpenAI — у них. Ну и конечно с таким таймингом релиза мы пока не знаем, кто в итоге новый лидер по бенчмаркам AI для кодинга и агентных задач 😄

А может в этом и был план?! Не нужно спешить с разработкой новой модели, оба релизнулись, оба молодцы, никто не проиграл, никто не выиграл. Перед инвесторами все отчитались. Разработчики отпуск возьмут наконец-то 🤓

3. И как вишенка на торте — три часа назад Perplexity представил Model Council.
Фича дает возможность запускать параллельно 3 модели на выбор. Потом результаты сравниваются моделью-композером, и сравнительный анализ и саммари возвращается юзеру.

Похоже, что в новом Claude Opus можно реализовать такую же штуку. Но Perplexity мы любим за разнообразие моделей — поэтому на мой взгляд, фича все равно круче, чем просто прогон команды из трех агентов Claude.

Отличный способ перепроверки для снижения количества галлюцинаций.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥14👍75311
Начинаем реальную автоматизацию с помощью OpenClaw

Раньше я рассказывал как запустить нашумевшего AI агента. Теперь делюсь, как его прокачать для реального использования.

Первым делом я запустил его на VPS

Или, проще говоря, в облаке. Нужно это, чтобы агент всегда был онлайн, даже когда я отключил компьютер.

Делается все очень просто. Выбираете любого провайдера и берете самую простую виртуальную машину в аренду. Заходите в консоль виртуальной машины и проходите абсолютно тот же процесс настройки, как я показывал ранее.

Лайфхак 1: на AWS (Amazon) можно заюзать free tier. Там одну вполне достаточную для OpenClaw виртуалку отдают бесплатно. Но нужна зарубежная карта, телефон и впн, чтобы заходить в консоль AWS. Зато у них есть еще мобильное приложение, с которого очень удобно с телефона отслеживать, что там с ботом, если он вдруг перестал отвечать.

Лайфхак 2: многие облачные провайдеры начали предлагать деплой OpenClaw под ключ. То есть вы сразу платите за виртуалку с OpenClaw. В РФ этим промышляет вроде cloud.ru. Я такой способ не пробовал. Поделитесь как работает, если вы — да.

Я выбрал AWS еще и потому, что агент сразу развернут в зарубежной инфраструктуре, а значит без проблем будет работать с любыми нейронками и сервисами без впн. Чего вы будете лишены, если развернете его на облаке в РФ. Там придется строить костыли.

Отдаем агенту в управление реальный процесс

Самое сложное с этими агентами — придумать, что им отдать в управление, и при этом не отдать слишком дофига, чтобы не поставить под угрозу свою кибербезопасность. Уже рапортуют много случаев, где агенты лажают с последствиями. Вот, например, Claud Cowork, пока пытался организовать рабочий стол жены юзера, — случайно удалил все сделанные ею фотки за 15 лет. Фотки растущих детей, путешествия, всякие события… Готовы ли вы так рисковать своим браком? 😁

Вот и я решил, что буду выращивать своего агента как отдельную «личность». У него не будет доступа к моей личной системе, но я буду наращивать его самостоятельность, чтобы он мог все больше процессов забирать в самостоятельное ведение. И если он там накосячит, то это не затронет мою систему.

Кстати, назвал я агента — Red Deputy, или коротко Red 🦀

Так вот первый живой процесс, который я отдаю Red — ассистировать мне со входящими запросами. Я создал почтовый ящик
aideputies_collab@agentmail.to

На него можно отправлять запросы на коллаборации. А управлять им будет агент.

Ящик непростой — это сервис agentmail.to. Как понятно из названия — сделан специально для AI агентов. Управляется полностью по API. Можно настроить вебхук, чтобы агенту прилетало оповещение о новом письме. Сервис, кстати, поддержан Y Combinator.

Настраивается ящик агентом самостоятельно. Просто отправляете ему ссылку на их сайт — а настроит он все сам. Работает бесплатно для первых трех ящиков! 🤓

Но, назад к агенту. Пока что он «проходит стажировку». Я запретил ему отвечать самостоятельно, перед этим он должен согласовать ответ со мной.

Сейчас мне он облегчает жизнь тем, что сортирует почту и ведет для меня список задач на основе полученных писем. К тому же он предлагает драфты ответных писем — и я все ответы отправляю только через него. То есть просто говорю: «отправь ответ вот этим трем адресатам».

Суть в том, чтобы у него накопился контекст и понимание, как отвечать на разные запросы. Многие пропускают «стажировку» и пытаются сразу кинуть агента в бой. И ожидаемо получают неожидаемое поведение от него 🤦‍♂️

Это самая распространенная ошибка с агентами. Им тоже нужно сначала либо набираться реального опыта, либо прописать супер детальную инструкцию. А в идеале — и то и то.

Будем посмотреть, как Red справится. Для тех, кому интересно следить за судьбой Red — ввожу хештег #red 👍

#заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍247🔥3211
Законы масштабирования агентных систем

Уже давненько ходит правило масштабирования LLM: больше параметров модели и больше данных практически гарантированно дают лучше результаты. Но есть ли подобные правила в агентных системах? Можно ли в сложных задачах просто навалить побольше агентов? Оказывается не все так просто.

Всего год назад была работа, которая говорила: "да, просто делайте больше агентов с голосованием, и это даст в среднем всегда более высокие результаты". Но с тех пор много агентов утекло.

В новой статье от Google DeepMind и MIT "Towards a Science of Scaling Agent Systems" авторы провели исследование на 180 конфигурациях, собираемых при стандартизированных структурах промптов, наборах тулов и бюджетах токенов на ризонинг. Исследовали конфигурации из:
• моделей семейств GPT, Gemini, Claude
• 5 агентных архитектур: Моноагентная система (SAS) и четырех Мультиагентных систем (MAS): Независимая, Централизованная, Децентрализованная, Гибридная (см картинку с различиями архитектур).

А качество замеряли на 4- бенчмарках:
• Finance-Agent (финансовый ризонинг)
• BrowseComp-Plus (навигация по вебу)
• PlanCraft (планирование)
• Workbench (использование тулов).
См результаты на скриншоте из статьи.

Три основных принципа

Именно столько рисерчеры сформулировали по итогам исследования. Вот они:
1. Трейд‑офф «инструменты vs координация». Чем больше инструментов и сложнее пайплайн, тем сильнее он страдает от мультиагентности. Все из-за того, что расходы на оркестрацию системы растут быстрее, чем прирост качества результата. Все как у людей, в общем-то 😈
2. «Потолок способности». Когда одиночный агент уже достигает ~45%+ точности, добавление агентов чаще вредит, чем помогает.
3. Мультипликация ошибок в зависимости от архитектуры. Если уровень ошибок SAS взять за единицу, то Независимая MAS увеличивает ошибку в более чем 17 раз! Меньше всего увеличивает ошибку Централизованная MAS — в 4,4 раза.

Из разряда "спасибо кеп" также сделали вывод, что мультиагентные архитектуры дают сильный профит на хорошо декомпозируемых аналитических задачах (на финансах MAS дает прирост до ~80% по сравнению с SAS), умеренный — на веб-браузинге и офисных сценариях, и стабильный ущерб (ухудшение на 39−70%) на жёстко последовательных задачах типа PlanCraft. Все потому, что на жестко последовательных задачах AI агенты не нужны! Они только вносят ошибки.

Круто, что теперь при создании мультиагентных систем у нас появляются хотя бы примерные ориентиры, когда как лучше делать. Это поможет сэкономить время и токены на экспериментах! 👨‍🔬

Поделитесь с вашими командами, которые трудятся над мультиагентными системами.

#ИИстатья

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍852🔥111
Новая AI экономика для сотрудников и предпринимателей

Все привыкли считать, что AI облегчает жизнь, и ускоряет ее. Исследователи из Bercley доложили, что на практике все не так.

ИИ действительно ускоряет работу, но меньше работать люди не начинают. Все ровно наоборот — сотрудники работают овертайм и испытывают более высокую когнитивную нагрузку. Все потому, что они начинают расширять свои обязанности.

Менеджеры начинают кодить и дизайнить с помощью ИИ. Рисерчеры начинают добирать ещё и инженерные задачи и так далее 🎹

С приходом ИИ реалии поменялись

Руководители компаний ожидают более высоких скоростей и эффективности работы. Это побуждает сотрудников расширять зоны ответственности и брать больше задач.

Люди запускают LLMки или агентов пилить задачки, прямо на ланче или на встречах, потому что «ну а шо там, запустить то 2 минуты». Теряются естественные паузы, которые раньше позволяли выдохнуть в течение рабочего дня.

Мультизадачность вышла на новый уровень. Все мы видели картинки и истории про «безумных гиков», которые на 5 мониторах запускают 50 ботов кодить новый интернет (например, как Питер Штайнбергер, создатель OpenClaw). Так вот подобная привычка в упрощенном виде теперь пришла в массы — люди запускают параллельно несколько промптов, а сами тем временем работают над другими задачами. Однако в голове приходится теперь держать все параллельно выполняющиеся задачи.

При всем этом самим сотрудникам очень легко и даже с удовольствием заходит новая рабочая реальность. Потому что закрытие бОльшего количества задачек и ощущение собственной гиперэффективности дает дофаминчика.

Но без последствий это не остается — побочным негативным эффектом оказывается жесткий когнитивный перегруз сотрудников и быстрое выгорание 😰

Мнение

Исследование маленькое - всего на 1 компании из 200 человек. Но, как мне кажется, подмечена проблематика очень четко.

Новая экономика, пронизанная ИИ, на самом деле не пытается сокращать работников — она пытается пропустить через тот же объем рабочей силы больше задач и получить больше выхлопа. Это логично. Как предприниматель вы хотите максимум доступного капитала обернуть с максимальной маржой. Капитал, который не оборачивается, съедает инфляция.

Давайте смоделируем

Вы предприниматель. У вас есть 80 рублей.
У вас уже есть штат из 5 сотрудников с зарплатами по 10 руб. То есть ваши расходы на рабочую силу = 50 руб. Остальные 30 уходят на другие затраты и реинвестиции.

Сотрудники производят продукта на 100 рублей. Вы, как предприниматель, забираете ренту 20% = 20 руб. Неплохо!

Но тут, внезапно, благодаря ИИ производительность каждого сотрудника растет на 30%.
Получается — расходы те же, за исключением мизерных расходов на подписку на LLM (пренебрегаем ими). А доход растет со 100 руб. до 130 руб.
И ваша рента, как предпринимателя, тоже растет буквально из воздуха: к первоначальным 20 руб. вы получаете чистый прирост в 30 руб. = в сумме становится 50 руб. 💰

Естественное решение — увеличившуюся ренту реинвестировать в этот же бизнес. Поэтому гораздо более логичным решением становится доп найм!

Но есть нюанс. В то же время держать сотрудников, которые «не улучшены ИИшкой» по сути становится «дороже». Потому что предприниматель теряет так называемую упущенную выгоду от того, что не нанял более продвинутого работника-юзера ИИ.

Конечно, это теория в вакууме. В реальности еще есть конкуренты, внешние условия и спрос на вашу продукцию, которые задают ограничение по тому, сколько максимально имеет смысл производить продукции.

И тогда максимизация ренты подталкивает предпринимателей уже в другую сторону — сторону снижения расходов (увольнения). Но это уже сильно зависит от сферы работы компании.

Вывод такой: внедряйте AI ассистентов в свой бизнес, но берегите свои мозги и мозги своих сотрудников. Если люди все выгорят, кто будет писать промпты 🤔

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍11💯54🔥411
Media is too big
VIEW IN TELEGRAM
Разработчики AI делают ставку на скорость

Соревнование новых LLM по бенчмаркам носит уже больше филосовский характер. Каждый придумывает свой бенчмарк и достигает в нем высот. А под общепринятые бенчмарки модели просто затачивают на этапе обучения. Все потому, что это коммерция и нужно показывать, что ты лучше конкурентов. Но вот где соревнование еще имеет весьма понятную и измеримую форму — это скорость инференса. И Anthropic и OpenAI синхронно ломанулись туда 🏃

Anthropic для Claude Opus 4.6 выкатили Fast Mode. По заявлениям Anthropic мод ускоряет выдачу токенов в 2.5 раза. Работает при этом только напрямую от Anthropic. Базовая версия выдает до ~70 токенов в секунду от Anthropic. Значит с ускорением будет что-то около 175 токенов в секунду. Неплохо!

Но OpenAI тоже подсуетились и выкатили GPT‑5.3‑Codex‑Spark. И у них цифры даже еще интереснее — ускорение в 3-7 раз! Больше 1000 токенов в секунду! Как это выглядит на практике — смотрите приложенное видео. Пока обычный Codex только готовится писать код — Spark уже полностью написал рабочую игру "Змейка".

Моделька, конечно, попроще. GPT-5.3-Codex-Spark + High Reasoning = обычная GPT-5.3-Codex + Low Reasoning на SWE Bench Pro. Но разница несущественная, при таком увеличении скорости.

Практическое применение?

Спорное. Ведь в быстром режиме Opus стоит дороже. С Codex Spark пока не понятно — сейчас он доступен только по подписке за 200 баксов. Но скорее всего тоже будет дороже. Инфраструктура то дороже стала.

А зачем по факту этот быстрый режим? Сами вендоры продают под лозунгами "лайв кодинг асистент", "фундаментально новый опыт взаимодействия", "работа в условиях дедлайнов" 😁

Да, быстрее в 2,5 или 7 раз. Но это уже гонки на "последней миле". Большая часть времени сэкономлена просто в тот момент, когда вы отдали задачу модели, а не ковыряли вручную. А за счет быстрого режима доп экономия времени измеряется в лучшем случае несколькими минутами (если задача достаточно жирная). Какая там работа в условиях дедлайнов!

По факту — просто смазали ручку игрового автомата, чтобы быстрее дергалась и жгла токены 🎰

Но, конечно, все равно мы все будем пользоваться и радоваться, что стало быстрее. Какой айтишник не любит быстрой езды? 😈

Кстати, из бонусов, OpenAI обещает выкатить WebSocket соединение на все модели, а не только Codex — а значит задержка на всех моделях станет меньше со временем.

Теперь ждем, когда Google и китайцы подтянутся...

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍8321
Я воссоздал платный функционал Notion бесплатно с помощью OpenClaw

Помните я писал пост о том, как круто Notion автоматизировали с помощью ИИ агентов? Это действительно пушка, но платить за это дополнительно 20 баксов в месяц — жаба душит. Но оказалось, что и не нужно, так как Red (так зовут моего OpenClaw агента) может полностью заменить нативных агентов Ноушена 🦀

Сделать это оказалось очень просто

Шаг 1. Установить бесплатную версию Notion. Благо есть Free Tier.
Шаг 2. Создаем интеграцию. Создаете воркспейс и идете в настройки в раздел Connections. Там мелким шрифтом внизу тыкаете на "Develop or manage integrations", который перекинет на эту страницу. Тыкаете "Create a new integration". Называете интеграцию -> выбираете тип "Internal" -> выбираете спейс, который создали. Интеграция создана. Нажимаете Configure Integration (или Manage Integration) -> внизу ставите везде галочки, чтобы агент мог не только читать Notion, но и писать в него. Копируете ваш ключ в пункте "Internal integration secret" и отправляете вашему OpenClaw с командой интегрироваться в Notion. OpenClaw сам все настроит.
Шаг 3. Настраиваем доступы. Теперь нужно настроить, какие страницы может редактировать OpenClaw. По умолчанию, он не имеет доступа никуда. Идете на вкладку "Content access" и выбираете страницы из вашего воркспейса. Отныне агент может на них делать что угодно!

Теперь у вас есть агентный Notion бесплатно! 😎

Просто говорите агенту прямо из телеги: "создай трекер задач с такими то полями". Готово!
"Добавь задачу Х" — бац она появилась в Notion. Особенный бонус в том, что ваш OpenClaw гораздо больше в контексте, чем нативные агенты Notion. Например Red сам уже знает, каким задачам ставить высокий приоритет, а каким — низкий. Где какие теги задачам ставить. И, больше того, он сразу прописывает для каждой задачи черновик или план ее решения. А каждое утро Red присылает мне "синк" с перечнем актуальных задач и беклогом в телегу.

А поскольку я уже настроил распознавание агентом голосовых — все общение с Notion через агента можно производить голосом.

Разблокируются и другие сценарии, в которых используют Notion ☀️
• База знаний (wiki), которую за вас ведет агент.
• Ведение бюджета — просто говорите агенту "добавляй каждый месяц Х в доходы — это моя ЗП". А когда что-то покупаете — скидываете агенту фотку чека или говорите просто "добавь расходы Y".
• CRM с вашими клиентами, если у вас свое дело, например.
• Контент менеджмент — какие посты в плане, их статистика и автоматическое написание черновиков агентом.
• И многое другое. Главное — у вас есть ручка для агента, которая позволяет ему полностью управлять вашим Notion. И есть красивый UI — где вы можете смотреть и редактировать все после агента.

Ну и самое главное — благодаря ограниченному перечню страниц, к которому есть доступ у агента, соблюдается инфобезопасность моего личного пространства 🤔

#red #заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍246🔥531