Заместители
2.73K subscribers
150 photos
109 videos
4 files
183 links
Цех ИИ агентов. Здесь я тестирую цифровых заместителей в разных профессиях. По пути обсуждаем актуальные новости про ИИ агентов простым языком.
Добро пожаловать в эру замещения.
Запросы -> aideputies_collab@agentmail.to.
Download Telegram
Смотрим "под правильным углом": развитие локальных LLM и еще один скачок качества топовых LLM

За последние 2 недели произошло сразу два интересных анонса: TurboQuant от Google и Bonsai от PrismML. Они бьют в самую больную точку современных LLM: дефицит железа.

GPU больше не главная проблема

Последние несколько лет все боялись, что закончатся GPU. Проклятые майнеры и ИИ лишили порядочных геймеров видеокарт. Но теперь ситуация дополнилась еще и дефицитом оперативы и даже обычной SSD памяти!

В части ИИ на то есть две основные причины:
1. Сами модели стали огромными и их веса занимают сотни гигабайт.
2. Растет контекстное окно моделей — а это напрямую влияет на объем кеширования Key-Values внутри "механизма внимания" (лучше всех, что это такое, объяснили HF).

Например, смотрим на Qwen3.5-397B-A17B, которая сравнима с GPT 5.2 и Gemini 3 Pro по бенчмаркам. Так вот эта скотина жрет 810 GB RAM+VRAM (оперативная память).

Ну и представьте, сколько инстансов моделей запущено в датацентрах, чтобы обслуживать весь мир всем разнообразием моделей 👀

Ситуация усложняется тем, что закон масштабирования моделей все еще продолжает работать — больше параметров в LLM — лучше ее перфоманс.

Корпорации начали решать эти проблемы

Делать это начали уже давно через квантование. Простыми словами любое квантование — это сжатие вектора (вектора — это главный строительный кирпичик, из которого строится и которым оперирует любая LLM). Меньше длина чисел вектора = меньше памяти требуется для хранения и запуска модели. Проблема в том, что это несет за собой потери качества.

Собственно об этом и были новости за последние 2 недели.

Во-первых, Caltech и PrismML разработали подход по сжатию самого веса модели (чекпоинтов) — Bonsai. Они сжали Qwen3-8B весом в 16.38 GB в 14 раз, до 1.15 GB. Точность модели в среднем по бенчмаркам упала при этом всего на 11%. То есть невероятно выгодный трейдофф!
Как? 1-битное представление всех весов модели вместо оригинального 16-битного. Но как именно они сохраняют такую точность при таком сжатии — технологию не раскрывают. Кстати, вы можете сами потестить эту модель прямо на вашем айфоне в Locally AI.

Во-вторых, TurboQuant от Google. Гуглойды придумали как сжимать KV кеш. Так они решают вторую проблему с растущим контекстным окном. Процесс состоит из 2х этапов:
1. PolarQuant — трансформация длинных векторов координат в комбинацию радиус + угол. Это старый математический трюк. Но они его дополнили другим старым трюком: добавили рандомный поворот вектора. Не вдаваясь в детали это нужно для того, чтобы сгладить всплески в данных и избежать неверных округлений. Именно неверные округления в данном подходе раньше приводили к серьезной деградации качества — теперь нет.
2. QJL (Quantized Johnson Lindenstrauss) трансформация направлена на исправление остаточных ошибок первого этапа. Тут чисто линейная алгебра, простыми словами уже фиг объяснишь 🤙Читайте источник, если хотите загрузиться.
На выходе — при квантизации до 3.5 битов — снижение кеша в 6 раз и нулевые потери качества на бенчмарках по работе с длинным контекстом.

Решали большую проблему, а решат еще и "маленькую"

Понятно, что главным образом корпорации хотят снизить потребление железа на вычисления. Вдогонку хотят еще и делать модельки типа новой Gemma 4, которые будут ставиться в edge устройства.

Но побочный неизбежный эффект — в обозримом будущем мы увидим у себя на ПК локальные "маленькие" модели с качеством не сильно хуже текущих топовых моделей. Если уже сейчас вес моделей можно снижать в 14 раз, а размер кеша в 6 раз, то это значит что на Макбук можно уже поставить модельку, которая в оригинале имеет примерно 80-100B параметров.

При этом передовые LLM, похоже, сделают очередной скачок в качестве. Потому что "освободившуюся" память от квантования корпорации используют не на горизонтальное масштабирование текущих моделей, а на то, чтобы выдавить еще мощи из закона масштабирования LLM. То есть обучат модели в 10 раз больше, квантизируют их без потери качества и запустят на текущем железе в погоне за AGI.

#ИИстатья

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
513🔥10🙈3311
Бесконечная память для вашего агента: LLM Wiki

На днях Андрей наш выдумщик Карпатый выкатил на гите по сути большой TRD файлик, который помогает вашем агенту структурировать собственную память как локальную википедию.

Идея простая: RAG устарел. LLM отлично справляется с работой с индексами и файловой системой. Поэтому Карпатый предлагает выстраивать собственно память вашего AI агента как википедию.

Другими словами, если:
• у вас ооочень большой контекст, например, вся ваша рабочая деятельность
• вы не хотите каждый раз вручную задавать агенту конкретный контекст типа "Вот файлы 1, 2, 3. Они относятся к проекту Х. Вот саммари звонка, который мы провели. В обсуждении участвовал Вася Пупкин - он наш директор и тд".
• при этом вы не хотите разворачивать локальное векторное хранилище и делать эмбеддинг всего контекста (звучит как место, где можно было бы закрыть пост для нетехнического юзера 🤯 )
• но, вы хотите, чтобы ваш агент всегда был в контексте всех ваших проектов/задач/контактов/событий и тд, не пытаясь засунуть все это сразу в контекстное окно

То этот сетап решает эти проблемы.

Разворачиваем и настраиваем

Все что нужно сделать — скопировать отсюда TRD (по сути промпт) от Карпатого. Там описана концепция локального wiki. И закинуть его в Claude Cowork (или кто там ваш агент).

Но нужно добавить секретный соус: добавьте в промпт требование, чтобы в сетапе не использовался внешний API для LLM — агент должен адаптировать сетап так, чтобы он сам управлял памятью. Готово 🧑‍🍳 Так вы избавили себя от необходимости отдельно настраивать API для этого управления этим Wiki.

Еще один лайфхак — сразу настройте по расписанию задачу актуализировать ваш Wiki каждый день вечером, анализируя подключенные источники (Jira, Confluence, Slack и тд). Так утром вас будет ждать агент со всей актуальной инфой.

В итоге получаем динамическую локальную Wiki-память

Вы получаете в обычной файловой системе набор папок и MD файлов, с индексом. Теперь агент будет по индексу искать нужные кусочки контекста без перегруза контекстного окна. А после очередной рабочей сессии — wiki страницы будут обновляться, что поможет агенту иметь актуальные знания о большом куске вашей жизни.

Дальше самое интересно — у вашего агента появилась большая память. Да вот только она пуста. Как ее наполнить? Я вопрос решил так: "Claude, сходи в Jira проанализируй все эпики, которы на мне висят и заполни нашу Wiki".

В итоге буквально через 20 мин настройки без единой строчки кода получаем Wiki 😎


memory-wiki/
├── README.md
├── schema.md
├── search.sh
├── sources/
└── wiki/
├── index.md
├── log.md
└── 11 pages...


Бонусом всей это историей становится просмотр накопленной памяти бесплатно через Obsidian в виде графа.

Для OpenClaw, который крутится в на ВМке, однако, такой стеап Wiki не получится посмотреть в Obsidian (если только не купить платную подписку для синка). Поэтому я рекомендую соединить этот подход с тем, что я описывал ранее — и использовать Notion как визуальный интерфейс, через который вы можете взаимодействовать с памятью бесплатно.

#ИИстатья #red #заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1511👍4311
Media is too big
VIEW IN TELEGRAM
World Models: риал-тайм AI гейминг не за горами

Только недавно геймеры горели от NVIDIA DLSS — AI дорисовки деталей поверх запущенных игр, которая вносила много кринжа в оригинальную эстетику игр. Но хоронить AI в играх не то что рано — все ровно наоборот — это только начало!

Сразу несколько компаний работают над AI генерацией игровых миров. То есть речь уже не о дорисовке деталей, а о генерации мира налету. И здесь есть несколько подходов, которые борются за жизнь.

Первый — тяжелый

Генерация 3D миров. Этим занимается, например, Worldlabs с их решением Marble — я о нем писал ранее. Главная проблема — подход очень тяжеловесный и пока что сырой. Это больше инструмент для разработчика игр, чтобы сократить цикл разработки. Да и про генерацию налету тут сложно говорить. Ибо вычислений требуется очень много.

Второй — нестабильный

Генерация картинки мира по мере движения камеры персонажа. То есть мир создаётся только там, куда смотрит в моменте юзер.

Но во втором подходе тоже не все гладко.
Во-первых, консистентность мира. В основе подхода лежит генерация видео. Поэтому как только камера юзера отворачивается от сцены — сцена навсегда перестает существовать. Когда юзер туда поворачивается в следующий раз — сцена генерируется с нуля. А значит она будет скорее всего существенно отличаться от своей первой версии.
Во-вторых, физика. Движение и действия персонажей в играх всегда сопряжены с реалистичной (а иногда не очень) физикой. Поэтому генерация игра требует от ИИ понимать как работает гравитация, тяжесть объектов, их изменение в динамике, отражения и тд.
В-третьих, все это нужно уметь генерить быстро и эффективно. В идеале — на устройстве юзера.

Так вот решением этих проблем занимаются генеративные world модели ☀️

1. Фаворит в этой гонке сейчас — Google Genie 3. По качеству реализации топ. Но модель тяжеловесная и точно не для юзерского железа. Потестить ее могут только подписчики Ultra AI подписки гугла, находящиеся в США.
2. В конце прошлого года Runway представили GWM-1. Принцип тот же, что и у Genie. Отличается высокой реалистичностью миров. Но открытых демок потыкать вообще нет.
3. Примерно тогда же и Tencent выпустили HY World 1.5. И что примечательно, в лучших традициях, модельку сделали опенсорсной! Выглядит очень неплохо.
4. Еще один интересный проект — новая Waypoint 1.5 от Overworld. По визуальному качеству сильно хуже предыдущих ребят, но! Фишка в том, что это первая модель для локального использования прямо на ПК юзера. Да, пока нужна мощная видеокарта, но это уже карта бытового уровня! На видео к посту "геймплей" из анонса как раз этой модели. Скорее всего видос ускорен.
5. Немного особнячком стоит Oasis. Здесь ребята пошли не вширь, а вглубь. Они обучили модель чисто на Minecraft. Но она позволяет уже не просто ходить и прыгать. Там полноценно есть инвентарь. Можно строить объекты, копать текстуры и тд. То есть это уже настоящая игра! Все также генерируется в реальном времени!

Что дальше?

DLSS от NVIDIA — лишь первая искра применения риал тайм генераций в играх. Со временем мы получим достраивание элементов игрового мира находу. А потом и целые сгенерированные локации, уровни и даже миры!

Придет это к нам все сильно быстрее, чем кажется. Ведь за развитием технологии стоит далеко не только игровой бизнес. В технологии заинтересованы разрабы робототехники — в таких симулированных мирах они тренируют ИИ, который потом управляет реальными роботами в реальном мире. А значит в эту технологию вольют ооочень много денег. Ловите на слове.

Ну а мы с вами сможем испытать абсолютно новые эмоции от игр, где виртуальный мир будет подстраиваться под игроков налету.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥7❤‍🔥1111
Claude Code уже не торт

Такие заголовки разлетаются по сети. Действительно ли модельки Claude сдают? Да, но не так как вы думаете 😳

Клод коду выдвигают целый список обвинений по деградации перфоманса:
- существенно хуже следует инструкциям
- ломает работающий (написанный ранее «старым хорошим» Клодом) код
- ухудшился перфоманс в комплексных мультишаговых задачах.

И все это длиться якобы примерно с февраля/марта 2026.

Какие ваши доказательства?

Первое. Самое «фактурное» и похожее даже на мини исследование, что есть — вот этот тикет. Тикет завела Stellar Laurenzo, senior director of AI в AMD (тот самый АМД, который делает процессоры). Если верить тикету, то это анализ на основе ~6800 сессий с клод кодом. И опять же если ему верить, то цифры следующие:
- Количество символов, которые Клод в среднем тратил на «размышления» снизилось с ~2200 до ~600 (-73%)
- появилось регулярное (~10 раз в день) нарушение стоп-хуков. Это правила, которые выставляют сами юзеры и которые тормозят Клод код от нежелательных действий
- анализ ~18000 пользовательских промптов показал, что недовольство юзеров Клодом внутри промптов выросло с 5.8% до 9.8%
- Клод стал на 70% меньше изучать контекст перед внесением правок (раньше соотношение количества чтений файлов к внесению изменений в файл было 6.6, стало — 2.0)
- Клод стал чаще переписывать файлы с нуля, что проще, но ведет к большему количеству ошибок (раньше он дела так в 4.9% случаев, теперь — в 11.1%)

Второе. Это жалобы юзеров в соцсетях. Реддиторы массово подтверждают проблему.

А что Антропик?

За него ответил Борис Черный, руководитель Claude Code.

И знаете что? Он в общем то во многом подтвердил, что Клод коду подрезали крылья, чтобы экономить токены. Вот что он говорит:

Во-первых, 9 февраля массово запустили adaptive thinking для Opus 4.6. Модель сама выбирает, сколько тратить токенов на размышления (thinking budget).

Во-вторых, с 3 марта для Opus 4.6 выставили по дефолту effort=85. Назвали это «Medium effort».

Но! Вы можете исправить обе настройки в settings.json вашего Claude. Вот две строки для этого:
CLAUDE_CODE_EFFORT_LEVEL=max
CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1


Так элодеи или нет?

В общем-то, если и можно обвинить Антропик в чем-то, так только в том, что коммуницировали они изменения не очень прозрачно.

Но теории типа «старые модели специально затупляют перед релизом новых, чтобы новые выглядели на их фоне лучше» — выглядят чистой конспирологией.

Антропик пытается снизить косты на инфраструктуру — прямой путь к этому снижать количество обрабатываемого контекста, то есть снижать thinking. А это абсолютно логично ведет к деградации перфоманса.

Кому нужен старый перфоманс — поставят себе максимальный effort у модели. Изменения нацелены на широкую аудиторию, чтобы порезать ситуации, когда юзер бездумно использует Opus 4.6 с настройками «полный фарш с extended thinking» для того, чтобы узнать погоду.

А для компаний это урок — LLM такой же софт как и любой другой. Нужно внимательно следить за изменениями и релизами, делать тесты после обновлений. Ведь, говоря о прозрачности, провайдеры LLM сейчас оставляют за собой ооочень большую свободу изменений «под капотом». Поэтому юзеры пользуются ими практически вслепую, на доверии. Не best practices как-то 😐

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥134👍3111
Вот вроде отдельного длинного поста не стоит, но коротко невозможно не отметить

Тыкаю Gemma 4 в Google AI Edge Gallery — приложении, по сути, просто для демонстрации способностей модели.

Ну красотища!
- понимает изображения и текст на изображениях
- понимает аудио
- пишет код
- умеет пользоваться скиллами
- мультиязычная, легко понимает русский

Просто летает и работают полностью локально на телефоне! 😨

Планка обычной оффлайн болталки преодолена с лихвой. Эту модель можно использовать как очень простой, но полноценный заменитель «мозга» вашего AI агента, когда у него нет доступа к сети. Или просто для экономии. Полный опенсорс, весит всего 3.6 GB.

Вот так медленно мы подбираемся к моменту, когда AI агенты будут прямо у нас в смартфоне.

Я надеюсь, что Apple встроят эту модель в IPhone локально вместо бедолажного Apple Intelligence 😁

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍123🔥211
AI ассистенты созрели и переходят на следующий уровень

Технология AI агентов заходит на новый виток развития. Мы прошли стадию принятия (если вы еще нет — то пора 👀) того, что AI стало продолжением рук и мозга в выполнении ежедневных офисных задач.

Вот так уже сейчас выглядит день продвинутого юзера. Каждое утро вам от агента приходит "брифинг" на красивом дашборде, где расписаны:
• все ваши приоритеты
• план на неделю и на день
• апдейты, которые произошли в чатах, на почте и в гитхабе, пока вас не было
• ссылки на тикеты в Jira
• и даже заготовки каких-то материалов.

А дальше вы просто говорите тому же AI агенту: "напиши код по задачке 1 из этого брифинга, подготовь документы к звонку, создай встречу, и закинь апдейт в Jira". А он, из-за того что сильно погружен в контекст — делает это все ну очень хорошо 📈

Остался один необходимый шаг до прекрасного будущего

Что остается? Правильно — автоматизировать этот процесс. По сути, роль человека в этом процессе начинает сводиться к проверкам результатов и тонкой донастройке. Да, пока что AI ошибается, генерит много слопа и переодически ходит не туда и делает не то. Но и это уже решается всякими валидациями. При желании ошибки сводятся к минимуму.

Оставался последний рубеж — неготовность агентов к энтерпрайзу. Все было слишком сырое, небезопасное, немасштабируемое и сложно настраиваемое. Но пока мы осваивались со всем, что я описал выше — технология дозрела.

И вот что уже у нас есть

• OpenAI выкатили апдейт своего Agents SDK, где представили, по сути, enterprise-ready фреймворк для создания агентов с возможностью упаковывать агентов в сендбоксы, а секреты выносить за его пределы, чтобы снизить риски промпт иньекций. Фреймворк сам разруливает архитектуру взаимодействия агента с тулами, скиллами, файловой системой, исполнителем кода, веб серчем. Ощущается, как они вдохновлялись OpenClaw, создателя которого они недавно впитали 👍
• Anthropic выкатывают Managed Agents — решение, где в обычном UI простым текстом можно настроить повторяющийся агентный процесс. Он будет запускаться по расписанию, может работать часами и агенты могут взаимодействовать друг с другом. Естественно, тоже в выделенных сендбоксах.
• А еще Anthropic выкатил так называемые "рутины" — этакие задачи по расписанию на стеройдах. Они будут выполняться вне зависимости от того, включен ли у вас комп — полностью в облаке, да еще и не просто по расписанию, а по настраиваемым триггерам. Преимущество перед Managed Agents — настраиваются все также удобно из Claude Code. Недостаток — работают только с задачами Claude Code, не работают в Cowork. То есть расчет на задачи типа регулярных автоматических код ревью и тд.
• OpenClaw тоже продолжает расти и развиваться. Ссылку на конкретный релиз давать нет смысла — апдейты льются сообществом каждый день. Но сейчас лобстера тоже можно упаковать в сендбокс, настроить вайтлисты для доступов, лобстер умеет сам создавать под задачу саб-агентов, а память у него теперь может быть облачная, что позволяет ее делить между сразу несколькими агентами.

Есть и другие провайдеры и опенсорсные проекты. Но здесь речь о мастодонтах, которые поведут за собой тысячи компаний-клиентов в это агентное будущее.

Что дальше?

AI процессы enterprise-уровня за последнюю неделю стали реальностью. Причем такие воркфлоу уже можно создавать без знания кода и без необходимости соединять десятки стрелочек в n8n. Процесс описывается агенту — а он сам все настраивает.

Дальше допилить такие воркфлоу во вполне себе полезных виртуальных сотрудников — чисто инженерная задача. Все необходимое уже есть.

У таких работяг будет очень богатый контекст, они будут мультизадачны и будут трудиться действительно 24/7 работая над большими задачами. Им можно будет написать прямо в Slack, просто тегнув в рабочем чате с коллегами. И хоть общаться вы будете как будто бы с одним "виртуальным коллегой", под капотом будут трудиться десятки его клонов. Напоминает, кстати, концепцию из недавнего сериала Pluribus.

А вы хотели бы себе в команду такого коллегу? 😎

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥744👍11
Media is too big
VIEW IN TELEGRAM
Claude теперь дизайнер

Сегодня релизнули Claude Design 🎨 Вот, что с ним можно делать:
- Можно дизайнить wireframes или прямо живые тыкабельные прототипы интерфейсов
- Загрузив в него ассеты/компоненты, можно задать дизайн код
- Можно делать красивые презентации, которые прямо оттуда будут выгружаться в PPTX, PDF и тд.
- Есть возможность шарить проект с коллегами по организации
- Наконец самое важное — можно сделанный прототип сразу передать в Claude Code, чтобы тот доработал его до полноценной аппки.

Потыкал своими руками

И вот какие впечатления:
1. Работать весьма интуитивно и удобно. Особенно мне зашло то, что все работает в режиме бесконечного канваса, а заметки можно оставлять абсолютно к любому элементу на нем, чтобы Клод точно знал, что вы хотите поправить.
2. Из абсолютно рандомных ассетов (логотип канала, картинка из интернета, free text и текстовое поле) + 1 короткого промпта он сгенерил весьма себе приличный набор логотипов, а потом из них слепил презентацию с анимациями.
3. Claude Design на удивление косячит с текстовым содержанием (возможно, трудности перевода на русский), поэтому лучше текст генерить отдельным заходом.
4. Работает небыстро. На видео я ускорил в 50(!) раз процесс размышления от промпта до фразы "готово". Но под капотом пыхтит новый Опус 4.7. А он очень дотошный и любит все перепроверять.
5. Качество самого дизайна можете оценить сами. На мой вкус весьма хорошечно 👍

Так… а куда это все движется?

А движется это, судя по сливам, к тому, что Anthropic скоро выпустят свой аналог Lovable. Скорее всего Claude Design — это всего лишь промежуточный шаг.

#Заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥124🍾3211
Media is too big
VIEW IN TELEGRAM
Новый Codex моей мечты

На днях выпустили обновленный Codex. Главная фича — управление компьютером. Работает так же, как и все подобные сервисы сейчас — скриншотит экран, оценивает, и нажимает мышкой или выполняет bash команды, если позволяет приложение. Поэтому работает медленно, но достаточно уверенно.

Например, я запустил его играть в шахматы со встроенным алгоритмическим соперником во встроенных шахматах на маке. Просто наблюдать было скучно — поэтому попросил по пути учить меня играть в шахматы. Я залип — реально классный опыт, можно так учиться играть в шахматы 👀

Что еще новенького подъехало


• Интерфейс стал подозрительно напоминать Claude Cowork / Code, хоть и в своем дизайне и со своими деталями. А как так получилось?! 😁
• Появилась возможность открывать созданные документы прямо внутри Codex с наложенным поверх дока окном для дозапросов Кодексу
• Появилась общая память сквозь проекты и запросы. Она знает, над чем вы в целом работаете и чем живете. И благодаря этому Codex проактивно в новом окне предлагает решить какую-то задачу из действительно насущных согласно его воспоминаниям
• Кодексу добавили 90 новых плагинов. Среди них и те, которыми я лично постоянно пользуюсь в Claude, что и делает его для меня супер удобным: Atlassian и Microsoft Suite.

Но давайте обсудим слона в посудной лавке

Да, Codex стал удобным, я бы сказал во многом он догнал Claude Code. Но главная соль не в этом. Главные конкурентные преимущества, которые вы реально почувствуете после перехода с Claude вот какие:
1. Codex ЭКОНОМНЫЙ. Это просто песня. За 1 сессию я завайбкодил целую мини веб игру, а потом полностью портировал ее в локальную версию на Swift (нативный язык приложений для MacOS) — и ни то что, не уперся в лимиты, я даже не потратил 1 полное контекстное окно! Хотя effort стоял на high.
2. Codex не делает мне мозг постоянными вопросами "а можно эту команду выполню", "а еще вот этот файл прочитаю", "а вот тут 1 строчку прочту". Да, конечно, это настраиваемо в Claude — но это геморрой и по дефолту работает не так. А в Кодексе по дефолту (так и называется default permissions) Codex спросил меня в процессе разработки целый игры буквально "можно убью этот процесс?" и "можно запущу созданное приложение" — это реально важные опасные операции, где реально нужен аппрув. Таким образом в Кодексе я снова почувствовал магию агентной разработки. Почувствовал, что я реально делегировал задачу, а не сижу за игровым автоматом, где мне нужно тыкать кнопку "аппрув" на каждый чих.

И оказывается, что этих двух преимуществ при прочих равных оказывается достаточно, чтобы поселить во мне зернышко мысли "а не пора ли переключаться на Codex?"
Ренессанс OpenAI получается ☀️

#Заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍10111
Господа, это новый уровень.
Ищите во всех газетах. Я вам сфоткал на всякий случай.

Заместители
11😁6🤯52👍1🌚11
Google анонсировал пятидневный интенсив по вайбкодингу AI агентов

5-Day AI Agents: Intensive Vibe Coding Course With Google. Это уже третья пятидневка в серии, которую Гуглойды проводят раз в полгода.

Они уже делали интенсив по LLM и по агентам — оба были шикарными. В этот раз, похоже, объединили две темы: вайбкодинг и разработку агентов с акцентом на доведение до прода.

И давайте оставим инфоцыганам, разбираться, как моднее это называть «вайбкодинг» или «агентная разработка». Главное — Гугл делает эти курсы хорошо, очень доступно даже для новичков и собирает в них всегда самую актуальную информацию. Так что это рекомендация отдуши 🫶

А тем, кто сделает финальный проект — дадут сертификат.

Бронируем даты в календарях: 15-19 июня 2026.

Регистрируйтесь заранее. Регистрацию обычно закрывают немного заранее до начала курса. В последний день не получится запрыгнуть.

Содержание интенсива на инфографике 😉

Fun fact: вчера я понял, что вышла новая GPT Image 2, когда сгенерил эту инфографику и прибалдел от качества 😁

#ИИученьесвет

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍84🌚11
This media is not supported in your browser
VIEW IN TELEGRAM
Релизнули Workspace Agents в ChatGPT

Помните, я буквально недавно писал о том, что до AI-коллег остался 1 чисто инженерный шаг. OpenAI его, похоже, сделали 🧐

Выглядит так, что попали в яблочко по всем пунктам:
- Агенты настраиваются чисто промптами в удобном интерфейсе
- Прикручиваются тулы и скиллы = бесконечная гибкость
- Крутятся в облаке и 24/7 проактивны
- Можно шарить созданных агентов со всей командой
- Можно добавить их в чаты мессенджеров как OpenClaw (скорее всего там и подсмотрели). Агента можно просто тегнуть в чате и закинуть вопрос/задачу

В отличие от рутин в Клоде и Managed Agents от Anthropic — OpenAI собрали все воедино в одном месте и сделали это удобно.

Посмотрим, пройдут ли проверку временем — дьявол будет в деталях:
- что с безопасностью
- насколько сложно управлять доступом к самому агенту и к управлению им, если он торчит в канал Слэка
- как управляется память и контекст агента (чтобы он не впитывал все подряд из всех чатов)
- сможет ли он в облаке выполнять более сложную работу (программировать аппки, создавать документы и работать с файлами) или это будет в основном умные говорилки с контекстом

По заверениям OpenAI - все эти вопросы закрыты. Все будет в лучшем виде. Если на практике все будет так же гладко, как на бумаге — это будет имба 🔭

Доступно пока в превью для бизнес и образовательных подписок.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
84🔥33❤‍🔥11
Media is too big
VIEW IN TELEGRAM
Flipbook: исследование мира через image generation

Как мог бы выглядеть интернет, основанный на моделях генерации изображений. Звучит диковато? На самом деле не так уж дико.

Мы с вами привыкли, что обмен полезной информацией в основе своей происходит текстом. Если мы хотим в чем-то разобраться мы гуглим или задаем вопрос в ЧатГПТ. Но сейчас тренд явно смещается в пользу визуального контента. И значит формат взаимодействия с миром через текстовые странички устаревает.

Интересную концепцию представили три до селе не очень известных фаундера: Zain Shah, Eddie Jiao, Drew Carr. Они решили собрать концепт браузера, где весь интернет — это непрерывно генерируемый поток изображений. И назвали его Flipbook.

Например

Я сгенерил в GPT Image 2 картинку старой Москвы (по поводу исторической достоверности отправляйте жалобы дяде Сэму 😁) и закинул в этот "браузер". В его парадигме я просто отправил "запрос" на поиск, некую исходную точку своего исследования.

А дальше я могу нажать на абсолютно любой элемент изображения: площадь, здания, верфь и тд. И в ответ браузер:
• соберет информацию об объекте
• сгенерирует изображение с описанием / объяснением объекта
• прицепит его в некий граф, как дочернюю страничку от оригинальной картинки старой Москвы.

То есть вместо HTML страничек интернет превращается в граф изображений, которые можно сразу превращать в поток видео и текста.

Пока все еще ничего не понятно...

Подумал я когда потыкал. Но потом я вспомнил одну интересную тему, которую мы разминали на подкасте с Дизраптором на этих выходных (как выйдет — будет отдельный анонс): "а что будет с интернетом дальше, когда ИИ агенты станут выполнять всю скучную работу?"

Большинство действий, типа поиска информации, онлайн шоппинга, работы с любыми сервисами — все будет выполняться через общение со своим маленьким зоопарком агентов / или 1-м персональным агентом.

Умрет ли тогда привычный нам интернет? Вряд ли. Но поменяется точно. И Flipbook явно нащупали что-то.

Разовьем идею

Да, просто картинок маловато, согласен. Но представим, что рядом с уже привычным текстовым окошком ChatGPT или Claude — появляется второе окно. В нем идет непрерывная генерация визуала для всей информации, которую вы обсуждаете с агентом. И это не абстрактные картинки-заглушки. Это информативные графики, поясняющие иллюстрации, видео-разборы. Сейчас браузеры пытаются это делать смешиваю поисковую выдачу с картинками и видосами с ютуба. В будущем же — это превратится в единый непрерывный, персонализированный и интерактивный видео-поток / виртуальную реальность (в будущем эти понятия вполне себе могут слиться).

Вы сможете в любой момент ткнуть на картинку и получить уточнение/детализацию/развитие идеи по объекту. А ваш агент в чате сбоку получит дополнительный контекст и сопроводит ваш "тык" короткой текстовой справкой или даже сразу предложит какое-то действие.

Рабочий сценарий?

Легко. Виртуальный "рабочий стол". Рабочие процессы визуализируются в реальном времени:
• данные летят по пайплайнам
• ваше оборудование работает
• ваш автопарк ездит по маршрутам
• в конце концов, работает ваша армия агентов! Ведь, не будем забывать, что в ближайшем будущем каждый из нас будет делегировать большую часть работы своим ИИ-коллегам/подчиненным. А как известно, смотреть можно вечно на три вещи: огонь, воду, и как работают твои ИИ агенты 👀

В любой момент вы можете нажать на любой процесс и для вас сгенерируется информация по процессу, подтянется статус по нему и предложатся действия.

Самое крутое? Вашим разработчикам никогда не придется заранее генерировать этот мир и все эти живые виртуальные дашборды для вас — все они будут генерироваться в риалтайме лично для вас и обогащаться данными из ваших БД. Уже сейчас GPT Image 2 может "думать" и генерить весьма детальные и осознанные изображения, наполненные текстом и данными. Дальше будет только лучше.

В общем, весьма интересный концепт. Единственное, что непонятно, откуда мы возьмем столько железа и энергии, чтобы крутить все эти генеративные модельки 👌

А вы как видите будущее веб-браузинга?

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥75111
This media is not supported in your browser
VIEW IN TELEGRAM
Manus релизнули Cloud Computer — как OpenClaw, но для людей

Индустрия продолжает двигаться к ИИ агентам, которые могут выполнять работу 24/7. OpenClaw открыл шкатулку Пандоры, OpenAI с их Workspace Agents быстро подхватили. Но, похоже, Manus опять сделали красиво!

Первопроходцы в теме персональных агентов с двух ног влетают в гонку💪

Cloud Computer до безобразия прост и прекрасен:
- это, судя по всему, обычная персональная ВМка, но работает из коробки без геморройной настройки
- управляется она полностью агентом Manus
- на ней же можно разворачивать сайты и поднимать базы данных — естественно, Manus все за вас сделает
- можно запускать длительные задачи, закрывать вкладку и жить жизнь, пока Manus пыхтит
- агент при этом доступен в мессенджерах, в том числе в телеге, куда он подключается действительно в два щелчка
- есть мониторинг загрузки компьютера (как у любой ВМки)
- есть возможность командного (в смысле несколько человек) управления «компьютером».

Кстати, вспомним, что Manus — универсальный агент. Он умеет в общем-то вообще все из коробки. А значит вам не придется мучаться с настройкой и подключением моделей, скиллов и тд, как в OpenClaw. При этом агент персональный, в отличие от Workspace Agents in ChatGPT, которые созданы для Enterprise и вообще не подразумеваются для обычных смертных.

Конечно, у такого удобства есть цена — знаменитый высокий расход токенов Manus и «вендор лок», то есть не возможность подключить любую модель. Выбирать можно только из того, что дает Manus.

Итого у нас на арене

- OpenClaw
- Perplexity Computer
- Manus Cloud Computer
- Workspace Agents in ChatGPT

На удивление, Anthropic ходит вокруг да около, но толком не дает удобного 24/7 агента, которым можно управлять прямо из Claude. Managed Agents — это все еще скорее умные пайплайны.

А что там Gemini? А они вот 2-й раз за год переименовали свою облачную ИИ экосистему (Agentspace -> Gemini Enterprise -> Gemini Enterprise Agent Platform), на которой черт ногу сломит и половина функционала все ещё работает в превью через пень-колоду. Похоже, там в команде UX только копирайтеры работают 😁

По ощущениям, Manus нащупали золотую середину между гибкостью и коробочностью решения 📈

Рефералочку в Manus на 500 кредитов оставлю тут.

#заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
831
Токеновый налог на не английский язык

Наткнулся на интересный эксперимент ML рисерчера Aran Komatsuzaki. Он протестировал, насколько модели эффективно используют токены на разных языках. Результаты очень интересные 👨‍🔬

Суть эксперимента

Аран взял короткую статью и токенизировал ее на английском с помощью OpenAI токенизатора. Взял это за бейзлайн. А дальше начал переводить статью на другие языки и подсчитывать количество токенов, затрачиваемых разным моделями на тот же самый текст на других языках.

Оказалось, что «налог» на не английский язык есть

Большинство LLM жрут дополнительные токены на не английском.

Например, если вы общаетесь на русском языке с моделями — вы тратите в среднем в 1,5 раза больше токенов!

А из всех моделей больше всех токенов ест, сюрприз-сюрприз, Anthropic! Вот куда вылетают ваши лимиты в Claude.

Самыми универсальными моделями оказались Gemini 3.1 и Qwen 3.6. Они едят всего на ~23% больше токенов в среднем на не английском языке.

Почему так?

Токенизаторы — это специальные алгоритмы, которые нарезают язык на «кусочки» так, чтобы LLM обрабатывала язык наиболее эффективно. В идеале токенизатор разбивает слова на корни, приставки, суффиксы и тд. То есть наследует «структуру языка». И тогда однокоренные слова в векторном пространстве находятся очень близко. Но все усложняется, когда токенизатору нужно научиться эффективно нарезать несколько языков. Особенно таких разных как английский, китайский и арабский. Вот оттуда и растут ноги.

Во-первых, большинство популярных LLM родом из США. Поэтому когда модель всячески оптимизируется — это делается на бенчмарках на английском языке. Соответственно, так или иначе английский токенизируется лучше всех.

Но есть и во-вторых. Разные языки имеют разную «емкость». То есть разные языки могут вместить разное количества смысла в одно и то же количество слов/символов/токенов. И это, кстати, одна из причин, почему китайский язык даже у «англоговорящих» моделей подвержен наименьшему «налогу». Китайский очень емкий.

Интересно было бы посмотреть такую эффективность токенизации для русского матного 😈

У этого есть цена

Не даром это назвали «налогом». Ведь такая неэффективность буквально выливается в повышенные расходы и в уменьшенную точность моделей на не английских языках.
1. Меньше информации влезает в контекстное окно.
2. Больше токенов тратится, чтобы обработать тот же «смысл».
3. Дольше обрабатывается запрос. Не дай бог модель под капотом начнет «думать» на хинди. Абсолютно бесполезное сожжение 3х большего количества токенов.

Лайфхаки будут? 😬

Избежать «налога» крайне сложно. Он зашит на этапе обучения модели.

Так что не то чтобы есть много лайфхаков.
1. Самое простое - говорите с моделью на английском языке.
2. Если говорить на английском не можете, как минимум просите модель размышлять на английском. Это сэкономит невидимые для вас токены.
3. Можно пробовать приколюхи типа caveman. Скилл, который заставляет модель общаться, как пещерный человек.
4. Ну и самый хитрый вариант — настройте агента-переводчика на базе Gemma. Gemma 4 отлично говорит на большинстве языков. Она маленькая и влезает на любой комп. Сделайте маленького сабагента, единственная задача которого быть переводчиком между вами и англоговорящей моделью. Таким образом самую расходную часть мы кладем на плечи локальной бесплатной модели.

#ИИстатья

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥34👍11841
В гостях на подкасте про AI агентов

Друзья, я тут регулярно пишу про агентов. И каждый раз мы с вами затрагиваем какие-то отдельные интересные аспекты.

Но, знаю, что многим хочется уже наконец-то разобраться во всем и сразу:
- что за ИИ агенты и чем они отличаются от обычных LLM
- в чем разница между Claude, ChatGPT, Perplexity, Manus, OpenClaw
- риски, сопряженные с агентами
- реально полезные сценарии и юзкейсы использования ИИ агентов… и многое другое.

Все это мы обсудили с моим старым другом ещё со времен лицея — Лешей Подклетновым, ныне известным как Дизраптор. И засняли для вас в формате видео-подкаста.

Я первый раз на таком формате, но прямо кайфанул! Получилось очень круто, местами угарно и, главное, полезно! 💡

Парочку отрывков закидываю вам прямо тут. А полная версия доступна у Леши на закрытом канале Дизраптор Лаб. Там много и другой годноты, аналитики и разборов.

Вообще, как вам видео формат? Стоит разбавлять текст периодическими видосиками или вы за классику и лонгриды?

Добавлять иногда видео-формат — ❤️‍🔥
Текст и лонгриды рулят — 🤓

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓16❤‍🔥15👍63💯21🌚1
Cognitive offloading и концепция умной тишины

Агентная истерия находится на подъеме. При этом люди в ловушке: использовать AI приходится даже там, где это не нужно, потому что не используя его есть риск отстать от конкурентов.

И если раньше AI было развлечением гиков, или отдельной фичей в компании, то сейчас AI и агенты буквально пронизывает все процессы в энтерпрайзе.

Так вот я начал своими глазами наблюдать, к чему эту приводит.

Симптомы активного пользования AI и агентами

- Растет фрагментация внимания. Люди привыкли, что “AI сделает”. И запустив 2-3 параллельных задачи в Claude идут курить и пить кофеек. Но это в теории 😈. На практике — они следят за каждой задачей и постоянно переключают мозг, чтобы дать инпут в Claude или проверить его результат. Поэтому теперь даже когда вы работаете в состоянии “потока”, внутри него вы постоянно переключаетесь между задачами.
- Понимание и знания выветриваются. Все понастроили себе “вторые мозги” на основе AI. Или просто опираются на то, что AI может сам собрать всю инфу в любой момент. У этого даже появился термин “cognitive offloading”. И поэтому люди реально перестают держать в голове детали происходящего вокруг в жизни и на работе. Это назвали “эрозией внутренней модели мира”. Архитекторы хуже понимают архитектуру. Менеджеры хуже ориентируются в происходящем в стримах. Кодеры и аналитики хуже понимают процессы, над которыми они работают.
- При этом сгенерированный контент хуже усваивается. Сгенеренные тексты ощущаются мозгом как что-то бесплатное, а значит не имеющие ценности. Поэтому вообще не запоминаются. Кстати, вы заметили, что LLM склонны 3 раза повторять “главную мысль” в одном сообщении? Честно говоря, это единственный способ из нейрослопа уловить эту главную мысль.
- Когда все вокруг начали генерить все подряд — информации стало больше, чем наш мозг может переварить осознанно. Поэтому новый формат общения — HTML прототипы, дашборды или слайды с минимумом текста. Теперь это главный способ донести мысль или идею.

Я начал искать, есть ли научные подтверждения моим личным наблюдениям 👨‍🔬. Оказалось, что тема действительно начала потихоньку освещаться. Вот несколько статей: раз, два, три.

Нам всем нужна “умная тишина”

В таком информационном передозе давно стало популярно уединяться и уменьшать количество информационного шума. В Норвегии, например, люди уезжают в “Хютте” — маленькие домики вдали от цивилизации, где не ловит сеть, чтобы разгрузиться от инфошума. Ну и всяких цифровых детоксов вы уже видели десятки, я уверен.

Я предлагаю развить эту идею в приложении к AI агентам.

Информационная тишина должна стать главной целью использования AI агентов.


Мир сейчас летит в противоположном направлении — сгенерить как можно больше новой информации/инсайтов/развлечений, только загрязняя наше сознание нейрослопом.

AI агент же, напротив, идеален, чтобы снижать количество информации, которую мы сами должны обрабатывать.

И для этого главное, чему нам нужно научиться — делегировать AI агентам целые законченные процессы.

Раньше наш мозг с вами сам внедрял такие автоматизации в жизнь. Это называется привычками. Мы не тратя когнитивную энергию совершаем действия “по привычке”. Ходим одним маршрутом на работу, читаем новости в одних и тех же источниках, структурируем каждый рабочий день примерно одинаково.

Теперь же нам надо вынести привычки в AI агентов 🤔 Для этого придется осознанно разложить свою жизнь на процессы. И часть этих процессов на постоянке делегировать агентам. Например, пусть 1 еженедельный отчет для вас полность готовит AI агент. Но только доведите эту автоматизацию до идеала. Чтобы вы больше не думали об этом отчете. Или внедрите в Claude Design вашу дизайн систему и больше никогда не занимайтесь дизайном слайдов — просо отгружайте туда черновик и забирайте готовый слайд. Не докапывайтесь до деталей. Настройте до той степени, чтобы качество было на 80% хорошим и расслабьтесь.

Только так получится выйти из урагана, в который нас закручивает сейчас AI.

Все инструменты у нас есть. Нужно только начать их по-другому использовать.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1884👍3😁1