Заместители
2.73K subscribers
150 photos
109 videos
4 files
183 links
Цех ИИ агентов. Здесь я тестирую цифровых заместителей в разных профессиях. По пути обсуждаем актуальные новости про ИИ агентов простым языком.
Добро пожаловать в эру замещения.
Запросы -> aideputies_collab@agentmail.to.
Download Telegram
Kaggle запустил бесплатную площадку для проведения хакатонов

Теперь любой желающий может провести свой Community Hackathon прямо на привычной для всех уважающих себя датасаентистов платформе!

Для тех, кто не знаком с концепцией хакатона в мире AI — это соревнование между AI разработчиками — кто сделает модельку круче и выбьет самые высокие метрики на закрытом тестовом датасете.

Kaggle дает готовую инфраструктуру для запуска хакатона:
• Хакатон можно сделать публичным или частным.
• Можно назначить приз до $10,000, мерч или провести без приза.
• Платформа дает загрузить необходимый датасет и модели.
• Можно пригласить судей.
• Ну и механика лидербордов и форум для обсуждения тоже предоставляется Кэглом.
• Все это бесплатно ☀️

Вот сходу несколько идей, зачем вам проводить хакатон, когда это стало так просто сделать:
• Хакатон для школьников или студентов вместо экзаменов! Настоящее обучение через практику.
• Корпоративный хакатон, чтобы мотивировать попробовать новые SOTA подходы внутри компании.
• Хакатон как способ отбора кандидатов на DS позиции и для развития HR бренда.

Я был судьей на парочке хакатонов в РФ, и хочу сказать, что площадка для проведения — это всегда больное место. Вечно вопрос где взять площадку, а когда площадка находится — возникают технические косяки. А хакатон вообще без нормальной онлайн площадки (когда деняк на нее нет) всегда выглядит позорненько. Мол, хотите чтобы участники тут самые передовые подходы пробовали, а сами — для загрузки результата яндекс-форму даете и лидерборд в эксель табличке вывешиваете 👀

Поэтому это по-настоящему щедрый подгон от Kaggle. Пользуем!

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥53👍111
Компания переклеила шильдик у китайской технологии и продала как свою…

И это точно не та компания, о которой вы подумали — это сделали разработчики Cursor…

Cursor на днях выкатили новую модель Composer 2. Делали сравнения с GPT и Opus, пиарили как свою модель. А потом один юзер перехватил вызов из Cursor к этой модели, а там
accounts/anysphere/models/kimi-k2p5-rl-0317-s515-fast 😂

То есть ребята просто дообучили опенсорсную китайскую модельку от Moonshot AI и позорненько это попытались спрятать (хотя лицензия Kimi требует в явном виде указывать использование их модели).

Вот круг и замкнулся: китайские модели (DeepSeek) дистиллируются из ChatGPT, а американские модели обучаются на опенсорсных китайских моделях.

Международные лучшие практики 🤡

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2🙈118🤡4331
NemoClaw от NVIDIA: ваш OpenClaw с энтерпрайз уровнем безопасности из коробки

Если вы думали, что хайп на OpenClaw уже сошел на нет — вы сильно заблуждаетесь. В Китае в самом разгаре мощнейший хайп на установку OpenClaw даже школьниками и пенсионерами. Поэтому крупные компании, типа NVIDIA продолжают делать ставку на развитие лобстера.

В связи с чем NVIDIA выпустила NemoClaw — свою сборку OpenClaw на NVIDIA OpenShell. 😎

Я рассказывал раньше, как шустрые умные ребята пилят сервис nono.sh. Так вот NVIDIA тоже подошла к этой задаче со всей серьезностью.

И хотя nono местами остается даже более секьюрным решением (например, есть возможность инжектить API ключи в обход LLM, и возможность установить правила, которые нельзя расширить в рамках самого рантайма), они по факту очень похожи и оба имеют высокий уровень безопасности на уровня ядра. При этом NVIDIA умело берет своей "платформенностью".

Во-первых, и это самое важное, они собрали воедино безопасность и агента в контейнере. То есть сетап лобстера происходит сразу с правильными настройками безопасности в рамках контейнера. Это избавляет юзера от головной боли с настройками безопасности.

Во-вторых, такой сетап дает масштабируемость и портативность. Один агент = один контейнер. Хочешь — делаешь 10 контейнеров, в каждом свой агент. Хочешь — перемещаешь этого агента вместе с контейнером на новый сервер.

В-третьих, у вас глубокий контроль за секьюрностью. Она обеспечивается через NVIDIA OpenShell. Это выделенная песочница для AI агентов (sandbox), где доступы настраиваются через YAML файл, в котором в явном виде прописывается вайтлист (теперь очень знакомое всем слово...) команд, которые могут исполняться.

Наконец, из коробки предлагается запускать лобстера на одной из кучи моделек, которые дистрибутирует NVIDIA. Там есть много моделек в облаке с free tier доступом. Там конечно же есть Nemotron 3 Super 120B, есть Qwen, GLM и другие модели.

Почему всем этим занимается NVIDIA? Ответ простой: больше AI агентов онлайн — больше спрос на их видеокарты 😈

А для нас — это еще один шажок в строну массового использования AI агентов. Так что нас все устраивает ☀️

#заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
29🔥5👍2🌚1🍓111
Из личного опыта: 10 пунктов как реально меняется корпоративная жизнь с внедрением Claude

Давайте честно, по-человечески разберемся, как реально меняется работа и ощущения от нее с внедрением Claude Code / Cowork 😎
Буду рассказывать из собственного опыта AI Product Owner.

1. Реально >50% рабочего времени я сижу в интерфейсе Claude Code или Cowork.

2. Накидать идею на слайдах — больше не канает. Перед тем как питчить идею руководству — я как продакт должен сам (или с помощью бизнес-аналитика!) на коленке собрать работающий proof of concept. Это делается в Claude Code, конечно. Это становится одной из моих основных задач.

3. Работа с Jira / Confluence ведется через Claude Cowork.

4. Работа разработчиков смещается из операционки в архитектурное планирование и рисерч. Большинство также >50% работы делают через Claude Code. Но не все, конечно. За Клодом нужно проверять, да и есть ограничения по секьюрности.

5. Скорости растут на порядок. Раньше доставить новую фичу в интерфейсе за месяц было ОК. Теперь за месяц ожидается доставка сложной комплексной логики, да еще и с AI моделями.

6. Узким местом остается продуктивизация. Легко набрасывать MVP. Сложно и долго их имплементировать в уже работающую большую систему в продакшене.

7. Работы стало больше. Claude зачастую все еще не имеет всей полноты контекста, чтобы забирать на себя процессы. Да и просто процессы не готовы к этому. Поэтому появилась нагрузка по подготовке процессов под автоматизацию с помощью того же Клода или других агентов. При этом не забываем, что скорости выросли -> фичей ждут больше и быстрее 😐

8. Профессии смешиваются. Узкоспециализированные позиции уходят в небытие. Claude дает компетенции всем во всем по-немногу.
PMы сами анализируют данные, пилят прототипы фичей или дизайнов.
DSы становятся частично инженерами, частично дата аналитиками.
Аналитики становятся по существу тем же, что и PMы, только без бремени принятия решений.

9. Использование AI агентов в работе становится одним из Hard Skills, который универсально требуется всем сотрудникам компании.

10. Реально на обочину выбывают не те, кого AI «должен заменить», а тот, кто не умеет им пользоваться.

Ну и немного эмоционального

- Все в аджуях. Никто не был готов к такой скорости внедрения AI ассистентов. От стажеров до руководителей компаний.
- Всем стремновато за свои позиции (и сотрудники и компании боятся, что их заменит AI), поэтому несмотря на предыдущий пункт — все очень быстро бегут вперед. Даже если не очень понятно, куда.
- Многие столкнулись с выгоранием, потому что работа превращается в непрерывное изучение нового, адаптацию к хаосу из нейрослопа, принятие решений (а это одно из самых высасывающих энергию действий).
- Но при этом я вижу, как люди реально делают больше, лучше и быстрее. И им это нравится! Людям нравится быть продуктивными — и это двигает вперед 😏

Что ж, мы все в одной лодке. Все сейчас чувствуют это давление. Уверен, даже всякие Сэмы Альтманы (возможны, они даже больше других). Так что держитесь! ❤️

А что поменялось у вас с внедрением AI агентов в работу?

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
51675😁4🌚3🔥1
Персональный новостной дайджест с помощью OpenClaw

Продолжаю развивать своего лобстера 🦀. В этот раз достаточно простая автоматизация, которая экономит время и внимание.

Я каждый день читаю целую кучу новостей из мира AI. Это нужно мне как для того, чтобы держать вас в курсе самого важного, так и для того, чтобы оперативно внедрять в работу новые технологии и подходы. Такова доля AI продакта в современном сумасшедшем мире. Ментальной энергии это съедает немало.

Решение — я собрал свой дайджест с помощью OpenClaw. Он приходит мне каждый день, настроен под избранные источники новостей, в нужной мне структуре и формате. Теперь вместо чтения новостей собранных для абстрактного читателя в разных новостных лентах — у меня персонализированная подборка.

Вы можете собрать дайджест и сами

Я сделал это в три шага:
1. Собрал список из нескольких примеров сайтов, откуда я бы хотел узнавать новости (достаточно просто ссылки на нужный раздел интересующего сайта). Дальше попросил лобстера подобрать мне источники для максимального покрытия медиа пространства новостей про AI. В несколько итераций мы с ним зафиналили список источников.
2. Дальше мы отточили сборку дайджеста: принцип отбора новостей из источников, стиль написания, форматирование, ссылки на источники и тд.
3. Все это упаковал в SKILL.md. Скилл запускается раз в день по расписанию.

Вы, кстати, можете это повторить и в ChatGPT и в Claude.

Что дальше?

В этом канале я пишу только самое важное на мой взгляд без инфошума. Но я все равно отсеиваю очень много новостей просто в силу нехватки времени.

Поэтому есть идея собрать для вас краткий ежедневный AI-дайджест в отдельном канале / группе. Он будет публиковаться моим лобстером, но курироваться мной и улучшаться по мере вашего фидбека. То есть без нейрослопа — качество дайджеста главный приоритет.

Пример первой версии в комментарии к этому посту. Там же кстати узнаете последние новости 📰

Читали бы такой дайджест в отдельном канале / группе?

Если делаем - ставьте 💯

#red

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2💯7261
everything-claude-code: используем правильно имбовый сетап для AI агентов

По сети разлетелся репозиторий с сетапом для AI агентов. Он собрал больше 115к звездочек (ооочень много). Все потому что его автор выиграл Хакатон Anthropic и опенсорснул весь свой сетап по использованию Claude Code. Сейчас он уже адаптирован под любого AI агента.

Что внутри

- Три гайда о том, как пользоваться Claude Code. И это самая недооцененная часть. Там практические советы и лайфхаки не только по этому репозиторию, но и по агентному кодингу в целом. Сделаю по ним прямо отдельный разбор — слишком хороши 😎
- Базовые настройки для оптимизации работы практически любого AI агента (будь то Claude, Codex, OpenCode и тд). То есть сами файлы типа CLAUDE.md и AGENTS.md. А также перечень правил с лучшими практиками кодинга для агентов (с точки зрения автора репы).
- 135 скиллов — и они постоянно пополняются. В основном для кодинга, но есть и для рисерча, написания статей, и даже редактирования видео!
- 30 сабагентов — это по сути тоже md файлики с определением агентов для отдельных независимых процессов, которые можно запустить параллельно, например, планировщик, архитектор и другие.
- 60 команд — это удобно упакованные вызовы скилов и тулов, чтобы вызывать их из интерфейса вашего ИИ агента в одну слеш-команду.
- Настроенные вызовы 14 MCP серверов — это тулы для этих скиллов и команд.

Главное — грамотно управлять контекстным окном

В сети была гора комментариев а-ля «я установил, у меня после 2х вызовов заполнено контекстное окно и перфоманс гг». 😳 Оно и понятно, внутри сотни тулов — все это падает в контекстное окно!

Поэтому:
- Устанавливайте только то, что вам нужно. Если кодите на Python, JS — выкиньте от греха оттуда php и другие языки.
- И даже после установки, включайте только то, что вам нужно для конкретной задачи. Ненужные тулы и плагины можно выключать в настройках.

Например сам автор репы рекомендует держать включенными только 4-5 плагинов / MCP, или не больше 80 тулов (в одном MCP могут быть десятки тулов).

Помимо непосредственной установки всего репозитория, можно к нему относиться как к библиотеки скиллов и настроек. Выбираем, закидываем своему агенту и адаптируем под себя.

И наоборот — проект можно использовать как каркас / фреймворк. В него можно легко добавлять свои скиллы, плагины, тулы и развивать под себя.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥23👍5211
Вкусность от OpenAI: плагин Codex для Claude Code

Вы наверняка сталкивались с лимитами в Клоде — вечная проблема. А вот в Codex с этой проблемой сталкиваешься гораздо реже. Так вот ребята в OpenAI почуяли наживу (и некислую конкуренцию со стороны Anthropic) и выкатили плагин, который позволяет прямо из Claude Code делегировать задачки в Codex 😈

Теперь, чтобы ваш Max план за 200 баксов в Claude Code заканчивался медленнее — подключаете Codex за 20 баксов и отгружаете туда рутинные задачи или наоборот комплексные задачи, где нужно второе мнение.

Хитрый ход от OpenAI, чтобы показать юзерам, что вообще-то Codex могет. А часть потом и переманить своим большим лимитом.

Что ж, попробуем! Вот свеженький официальный репозиторий 📈

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2115🔥111
Развод на первое апреля или слив исходного кода Claude Code?

Похоже все-таки второе…
Сегодня некий Chaofan Shou обнаружил утечку .map файла в билде Claude Code и выложил всю эту красоту у себя на X.

Что не слилось?

- Юзерские данные
- Веса моделей
- Секреты

Так что нервно удалять Claude не нужно 😁

Что слилось?

Вкратце, все остальное, чтобы было написано на TypeScript.

- Интереснее всего рассматривать запланированный функционал (например, KAIROS — проактивный always on агент, или buddy — тамогочи, который, позже, должен был официально быть представлен на следующей неделе).
- К тому же слиты все системные промпты, команды, скиллы, плагины, MCP, хуки и тд.
- Отдельно интересно смотреть как устроен Claude Code архитектурно, например как работает мультиагентная система Клод кода под капотом.

Что это значит?

В сети уже появляются десятки пиратских форков Claude Code. Секретный соус Клод кода, который собственно отличал его от Codex и других подобных решений — подчистую слит.

Не скачивая, можно поковыряться, например, тут. Люди быстренько выложили код в паблик.

Такие репозитории будут исчезать и меняться, тк с юридической точки зрения — вся утекшая кодовая база это интеллектуальная собственность Антропика. Поэтому копировать 1 к 1 нельзя. Но «вдохновленные» этим кодом решения уже фиг запретишь (и отловишь).
Все китайцы и OpenAI ну просто в восторге 😊

А сколько сейчас иронии в треде под этим постом X про безопасность Claude, про заявления что Claude сам себя пишет и про лучшие практики написания кода в больших компаниях.

На самом деле жалко Антропиков. Но в этом конкурентном мире клювом не щелкают. Будем надеятся, что это их замотивирует сделать ещё лучше.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤯10👍6👨‍💻2111
Смотрим "под правильным углом": развитие локальных LLM и еще один скачок качества топовых LLM

За последние 2 недели произошло сразу два интересных анонса: TurboQuant от Google и Bonsai от PrismML. Они бьют в самую больную точку современных LLM: дефицит железа.

GPU больше не главная проблема

Последние несколько лет все боялись, что закончатся GPU. Проклятые майнеры и ИИ лишили порядочных геймеров видеокарт. Но теперь ситуация дополнилась еще и дефицитом оперативы и даже обычной SSD памяти!

В части ИИ на то есть две основные причины:
1. Сами модели стали огромными и их веса занимают сотни гигабайт.
2. Растет контекстное окно моделей — а это напрямую влияет на объем кеширования Key-Values внутри "механизма внимания" (лучше всех, что это такое, объяснили HF).

Например, смотрим на Qwen3.5-397B-A17B, которая сравнима с GPT 5.2 и Gemini 3 Pro по бенчмаркам. Так вот эта скотина жрет 810 GB RAM+VRAM (оперативная память).

Ну и представьте, сколько инстансов моделей запущено в датацентрах, чтобы обслуживать весь мир всем разнообразием моделей 👀

Ситуация усложняется тем, что закон масштабирования моделей все еще продолжает работать — больше параметров в LLM — лучше ее перфоманс.

Корпорации начали решать эти проблемы

Делать это начали уже давно через квантование. Простыми словами любое квантование — это сжатие вектора (вектора — это главный строительный кирпичик, из которого строится и которым оперирует любая LLM). Меньше длина чисел вектора = меньше памяти требуется для хранения и запуска модели. Проблема в том, что это несет за собой потери качества.

Собственно об этом и были новости за последние 2 недели.

Во-первых, Caltech и PrismML разработали подход по сжатию самого веса модели (чекпоинтов) — Bonsai. Они сжали Qwen3-8B весом в 16.38 GB в 14 раз, до 1.15 GB. Точность модели в среднем по бенчмаркам упала при этом всего на 11%. То есть невероятно выгодный трейдофф!
Как? 1-битное представление всех весов модели вместо оригинального 16-битного. Но как именно они сохраняют такую точность при таком сжатии — технологию не раскрывают. Кстати, вы можете сами потестить эту модель прямо на вашем айфоне в Locally AI.

Во-вторых, TurboQuant от Google. Гуглойды придумали как сжимать KV кеш. Так они решают вторую проблему с растущим контекстным окном. Процесс состоит из 2х этапов:
1. PolarQuant — трансформация длинных векторов координат в комбинацию радиус + угол. Это старый математический трюк. Но они его дополнили другим старым трюком: добавили рандомный поворот вектора. Не вдаваясь в детали это нужно для того, чтобы сгладить всплески в данных и избежать неверных округлений. Именно неверные округления в данном подходе раньше приводили к серьезной деградации качества — теперь нет.
2. QJL (Quantized Johnson Lindenstrauss) трансформация направлена на исправление остаточных ошибок первого этапа. Тут чисто линейная алгебра, простыми словами уже фиг объяснишь 🤙Читайте источник, если хотите загрузиться.
На выходе — при квантизации до 3.5 битов — снижение кеша в 6 раз и нулевые потери качества на бенчмарках по работе с длинным контекстом.

Решали большую проблему, а решат еще и "маленькую"

Понятно, что главным образом корпорации хотят снизить потребление железа на вычисления. Вдогонку хотят еще и делать модельки типа новой Gemma 4, которые будут ставиться в edge устройства.

Но побочный неизбежный эффект — в обозримом будущем мы увидим у себя на ПК локальные "маленькие" модели с качеством не сильно хуже текущих топовых моделей. Если уже сейчас вес моделей можно снижать в 14 раз, а размер кеша в 6 раз, то это значит что на Макбук можно уже поставить модельку, которая в оригинале имеет примерно 80-100B параметров.

При этом передовые LLM, похоже, сделают очередной скачок в качестве. Потому что "освободившуюся" память от квантования корпорации используют не на горизонтальное масштабирование текущих моделей, а на то, чтобы выдавить еще мощи из закона масштабирования LLM. То есть обучат модели в 10 раз больше, квантизируют их без потери качества и запустят на текущем железе в погоне за AGI.

#ИИстатья

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
513🔥10🙈3311
Бесконечная память для вашего агента: LLM Wiki

На днях Андрей наш выдумщик Карпатый выкатил на гите по сути большой TRD файлик, который помогает вашем агенту структурировать собственную память как локальную википедию.

Идея простая: RAG устарел. LLM отлично справляется с работой с индексами и файловой системой. Поэтому Карпатый предлагает выстраивать собственно память вашего AI агента как википедию.

Другими словами, если:
• у вас ооочень большой контекст, например, вся ваша рабочая деятельность
• вы не хотите каждый раз вручную задавать агенту конкретный контекст типа "Вот файлы 1, 2, 3. Они относятся к проекту Х. Вот саммари звонка, который мы провели. В обсуждении участвовал Вася Пупкин - он наш директор и тд".
• при этом вы не хотите разворачивать локальное векторное хранилище и делать эмбеддинг всего контекста (звучит как место, где можно было бы закрыть пост для нетехнического юзера 🤯 )
• но, вы хотите, чтобы ваш агент всегда был в контексте всех ваших проектов/задач/контактов/событий и тд, не пытаясь засунуть все это сразу в контекстное окно

То этот сетап решает эти проблемы.

Разворачиваем и настраиваем

Все что нужно сделать — скопировать отсюда TRD (по сути промпт) от Карпатого. Там описана концепция локального wiki. И закинуть его в Claude Cowork (или кто там ваш агент).

Но нужно добавить секретный соус: добавьте в промпт требование, чтобы в сетапе не использовался внешний API для LLM — агент должен адаптировать сетап так, чтобы он сам управлял памятью. Готово 🧑‍🍳 Так вы избавили себя от необходимости отдельно настраивать API для этого управления этим Wiki.

Еще один лайфхак — сразу настройте по расписанию задачу актуализировать ваш Wiki каждый день вечером, анализируя подключенные источники (Jira, Confluence, Slack и тд). Так утром вас будет ждать агент со всей актуальной инфой.

В итоге получаем динамическую локальную Wiki-память

Вы получаете в обычной файловой системе набор папок и MD файлов, с индексом. Теперь агент будет по индексу искать нужные кусочки контекста без перегруза контекстного окна. А после очередной рабочей сессии — wiki страницы будут обновляться, что поможет агенту иметь актуальные знания о большом куске вашей жизни.

Дальше самое интересно — у вашего агента появилась большая память. Да вот только она пуста. Как ее наполнить? Я вопрос решил так: "Claude, сходи в Jira проанализируй все эпики, которы на мне висят и заполни нашу Wiki".

В итоге буквально через 20 мин настройки без единой строчки кода получаем Wiki 😎


memory-wiki/
├── README.md
├── schema.md
├── search.sh
├── sources/
└── wiki/
├── index.md
├── log.md
└── 11 pages...


Бонусом всей это историей становится просмотр накопленной памяти бесплатно через Obsidian в виде графа.

Для OpenClaw, который крутится в на ВМке, однако, такой стеап Wiki не получится посмотреть в Obsidian (если только не купить платную подписку для синка). Поэтому я рекомендую соединить этот подход с тем, что я описывал ранее — и использовать Notion как визуальный интерфейс, через который вы можете взаимодействовать с памятью бесплатно.

#ИИстатья #red #заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1511👍4311
Media is too big
VIEW IN TELEGRAM
World Models: риал-тайм AI гейминг не за горами

Только недавно геймеры горели от NVIDIA DLSS — AI дорисовки деталей поверх запущенных игр, которая вносила много кринжа в оригинальную эстетику игр. Но хоронить AI в играх не то что рано — все ровно наоборот — это только начало!

Сразу несколько компаний работают над AI генерацией игровых миров. То есть речь уже не о дорисовке деталей, а о генерации мира налету. И здесь есть несколько подходов, которые борются за жизнь.

Первый — тяжелый

Генерация 3D миров. Этим занимается, например, Worldlabs с их решением Marble — я о нем писал ранее. Главная проблема — подход очень тяжеловесный и пока что сырой. Это больше инструмент для разработчика игр, чтобы сократить цикл разработки. Да и про генерацию налету тут сложно говорить. Ибо вычислений требуется очень много.

Второй — нестабильный

Генерация картинки мира по мере движения камеры персонажа. То есть мир создаётся только там, куда смотрит в моменте юзер.

Но во втором подходе тоже не все гладко.
Во-первых, консистентность мира. В основе подхода лежит генерация видео. Поэтому как только камера юзера отворачивается от сцены — сцена навсегда перестает существовать. Когда юзер туда поворачивается в следующий раз — сцена генерируется с нуля. А значит она будет скорее всего существенно отличаться от своей первой версии.
Во-вторых, физика. Движение и действия персонажей в играх всегда сопряжены с реалистичной (а иногда не очень) физикой. Поэтому генерация игра требует от ИИ понимать как работает гравитация, тяжесть объектов, их изменение в динамике, отражения и тд.
В-третьих, все это нужно уметь генерить быстро и эффективно. В идеале — на устройстве юзера.

Так вот решением этих проблем занимаются генеративные world модели ☀️

1. Фаворит в этой гонке сейчас — Google Genie 3. По качеству реализации топ. Но модель тяжеловесная и точно не для юзерского железа. Потестить ее могут только подписчики Ultra AI подписки гугла, находящиеся в США.
2. В конце прошлого года Runway представили GWM-1. Принцип тот же, что и у Genie. Отличается высокой реалистичностью миров. Но открытых демок потыкать вообще нет.
3. Примерно тогда же и Tencent выпустили HY World 1.5. И что примечательно, в лучших традициях, модельку сделали опенсорсной! Выглядит очень неплохо.
4. Еще один интересный проект — новая Waypoint 1.5 от Overworld. По визуальному качеству сильно хуже предыдущих ребят, но! Фишка в том, что это первая модель для локального использования прямо на ПК юзера. Да, пока нужна мощная видеокарта, но это уже карта бытового уровня! На видео к посту "геймплей" из анонса как раз этой модели. Скорее всего видос ускорен.
5. Немного особнячком стоит Oasis. Здесь ребята пошли не вширь, а вглубь. Они обучили модель чисто на Minecraft. Но она позволяет уже не просто ходить и прыгать. Там полноценно есть инвентарь. Можно строить объекты, копать текстуры и тд. То есть это уже настоящая игра! Все также генерируется в реальном времени!

Что дальше?

DLSS от NVIDIA — лишь первая искра применения риал тайм генераций в играх. Со временем мы получим достраивание элементов игрового мира находу. А потом и целые сгенерированные локации, уровни и даже миры!

Придет это к нам все сильно быстрее, чем кажется. Ведь за развитием технологии стоит далеко не только игровой бизнес. В технологии заинтересованы разрабы робототехники — в таких симулированных мирах они тренируют ИИ, который потом управляет реальными роботами в реальном мире. А значит в эту технологию вольют ооочень много денег. Ловите на слове.

Ну а мы с вами сможем испытать абсолютно новые эмоции от игр, где виртуальный мир будет подстраиваться под игроков налету.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥7❤‍🔥1111
Claude Code уже не торт

Такие заголовки разлетаются по сети. Действительно ли модельки Claude сдают? Да, но не так как вы думаете 😳

Клод коду выдвигают целый список обвинений по деградации перфоманса:
- существенно хуже следует инструкциям
- ломает работающий (написанный ранее «старым хорошим» Клодом) код
- ухудшился перфоманс в комплексных мультишаговых задачах.

И все это длиться якобы примерно с февраля/марта 2026.

Какие ваши доказательства?

Первое. Самое «фактурное» и похожее даже на мини исследование, что есть — вот этот тикет. Тикет завела Stellar Laurenzo, senior director of AI в AMD (тот самый АМД, который делает процессоры). Если верить тикету, то это анализ на основе ~6800 сессий с клод кодом. И опять же если ему верить, то цифры следующие:
- Количество символов, которые Клод в среднем тратил на «размышления» снизилось с ~2200 до ~600 (-73%)
- появилось регулярное (~10 раз в день) нарушение стоп-хуков. Это правила, которые выставляют сами юзеры и которые тормозят Клод код от нежелательных действий
- анализ ~18000 пользовательских промптов показал, что недовольство юзеров Клодом внутри промптов выросло с 5.8% до 9.8%
- Клод стал на 70% меньше изучать контекст перед внесением правок (раньше соотношение количества чтений файлов к внесению изменений в файл было 6.6, стало — 2.0)
- Клод стал чаще переписывать файлы с нуля, что проще, но ведет к большему количеству ошибок (раньше он дела так в 4.9% случаев, теперь — в 11.1%)

Второе. Это жалобы юзеров в соцсетях. Реддиторы массово подтверждают проблему.

А что Антропик?

За него ответил Борис Черный, руководитель Claude Code.

И знаете что? Он в общем то во многом подтвердил, что Клод коду подрезали крылья, чтобы экономить токены. Вот что он говорит:

Во-первых, 9 февраля массово запустили adaptive thinking для Opus 4.6. Модель сама выбирает, сколько тратить токенов на размышления (thinking budget).

Во-вторых, с 3 марта для Opus 4.6 выставили по дефолту effort=85. Назвали это «Medium effort».

Но! Вы можете исправить обе настройки в settings.json вашего Claude. Вот две строки для этого:
CLAUDE_CODE_EFFORT_LEVEL=max
CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1


Так элодеи или нет?

В общем-то, если и можно обвинить Антропик в чем-то, так только в том, что коммуницировали они изменения не очень прозрачно.

Но теории типа «старые модели специально затупляют перед релизом новых, чтобы новые выглядели на их фоне лучше» — выглядят чистой конспирологией.

Антропик пытается снизить косты на инфраструктуру — прямой путь к этому снижать количество обрабатываемого контекста, то есть снижать thinking. А это абсолютно логично ведет к деградации перфоманса.

Кому нужен старый перфоманс — поставят себе максимальный effort у модели. Изменения нацелены на широкую аудиторию, чтобы порезать ситуации, когда юзер бездумно использует Opus 4.6 с настройками «полный фарш с extended thinking» для того, чтобы узнать погоду.

А для компаний это урок — LLM такой же софт как и любой другой. Нужно внимательно следить за изменениями и релизами, делать тесты после обновлений. Ведь, говоря о прозрачности, провайдеры LLM сейчас оставляют за собой ооочень большую свободу изменений «под капотом». Поэтому юзеры пользуются ими практически вслепую, на доверии. Не best practices как-то 😐

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥134👍3111
Вот вроде отдельного длинного поста не стоит, но коротко невозможно не отметить

Тыкаю Gemma 4 в Google AI Edge Gallery — приложении, по сути, просто для демонстрации способностей модели.

Ну красотища!
- понимает изображения и текст на изображениях
- понимает аудио
- пишет код
- умеет пользоваться скиллами
- мультиязычная, легко понимает русский

Просто летает и работают полностью локально на телефоне! 😨

Планка обычной оффлайн болталки преодолена с лихвой. Эту модель можно использовать как очень простой, но полноценный заменитель «мозга» вашего AI агента, когда у него нет доступа к сети. Или просто для экономии. Полный опенсорс, весит всего 3.6 GB.

Вот так медленно мы подбираемся к моменту, когда AI агенты будут прямо у нас в смартфоне.

Я надеюсь, что Apple встроят эту модель в IPhone локально вместо бедолажного Apple Intelligence 😁

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍123🔥211
AI ассистенты созрели и переходят на следующий уровень

Технология AI агентов заходит на новый виток развития. Мы прошли стадию принятия (если вы еще нет — то пора 👀) того, что AI стало продолжением рук и мозга в выполнении ежедневных офисных задач.

Вот так уже сейчас выглядит день продвинутого юзера. Каждое утро вам от агента приходит "брифинг" на красивом дашборде, где расписаны:
• все ваши приоритеты
• план на неделю и на день
• апдейты, которые произошли в чатах, на почте и в гитхабе, пока вас не было
• ссылки на тикеты в Jira
• и даже заготовки каких-то материалов.

А дальше вы просто говорите тому же AI агенту: "напиши код по задачке 1 из этого брифинга, подготовь документы к звонку, создай встречу, и закинь апдейт в Jira". А он, из-за того что сильно погружен в контекст — делает это все ну очень хорошо 📈

Остался один необходимый шаг до прекрасного будущего

Что остается? Правильно — автоматизировать этот процесс. По сути, роль человека в этом процессе начинает сводиться к проверкам результатов и тонкой донастройке. Да, пока что AI ошибается, генерит много слопа и переодически ходит не туда и делает не то. Но и это уже решается всякими валидациями. При желании ошибки сводятся к минимуму.

Оставался последний рубеж — неготовность агентов к энтерпрайзу. Все было слишком сырое, небезопасное, немасштабируемое и сложно настраиваемое. Но пока мы осваивались со всем, что я описал выше — технология дозрела.

И вот что уже у нас есть

• OpenAI выкатили апдейт своего Agents SDK, где представили, по сути, enterprise-ready фреймворк для создания агентов с возможностью упаковывать агентов в сендбоксы, а секреты выносить за его пределы, чтобы снизить риски промпт иньекций. Фреймворк сам разруливает архитектуру взаимодействия агента с тулами, скиллами, файловой системой, исполнителем кода, веб серчем. Ощущается, как они вдохновлялись OpenClaw, создателя которого они недавно впитали 👍
• Anthropic выкатывают Managed Agents — решение, где в обычном UI простым текстом можно настроить повторяющийся агентный процесс. Он будет запускаться по расписанию, может работать часами и агенты могут взаимодействовать друг с другом. Естественно, тоже в выделенных сендбоксах.
• А еще Anthropic выкатил так называемые "рутины" — этакие задачи по расписанию на стеройдах. Они будут выполняться вне зависимости от того, включен ли у вас комп — полностью в облаке, да еще и не просто по расписанию, а по настраиваемым триггерам. Преимущество перед Managed Agents — настраиваются все также удобно из Claude Code. Недостаток — работают только с задачами Claude Code, не работают в Cowork. То есть расчет на задачи типа регулярных автоматических код ревью и тд.
• OpenClaw тоже продолжает расти и развиваться. Ссылку на конкретный релиз давать нет смысла — апдейты льются сообществом каждый день. Но сейчас лобстера тоже можно упаковать в сендбокс, настроить вайтлисты для доступов, лобстер умеет сам создавать под задачу саб-агентов, а память у него теперь может быть облачная, что позволяет ее делить между сразу несколькими агентами.

Есть и другие провайдеры и опенсорсные проекты. Но здесь речь о мастодонтах, которые поведут за собой тысячи компаний-клиентов в это агентное будущее.

Что дальше?

AI процессы enterprise-уровня за последнюю неделю стали реальностью. Причем такие воркфлоу уже можно создавать без знания кода и без необходимости соединять десятки стрелочек в n8n. Процесс описывается агенту — а он сам все настраивает.

Дальше допилить такие воркфлоу во вполне себе полезных виртуальных сотрудников — чисто инженерная задача. Все необходимое уже есть.

У таких работяг будет очень богатый контекст, они будут мультизадачны и будут трудиться действительно 24/7 работая над большими задачами. Им можно будет написать прямо в Slack, просто тегнув в рабочем чате с коллегами. И хоть общаться вы будете как будто бы с одним "виртуальным коллегой", под капотом будут трудиться десятки его клонов. Напоминает, кстати, концепцию из недавнего сериала Pluribus.

А вы хотели бы себе в команду такого коллегу? 😎

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥744👍11
Media is too big
VIEW IN TELEGRAM
Claude теперь дизайнер

Сегодня релизнули Claude Design 🎨 Вот, что с ним можно делать:
- Можно дизайнить wireframes или прямо живые тыкабельные прототипы интерфейсов
- Загрузив в него ассеты/компоненты, можно задать дизайн код
- Можно делать красивые презентации, которые прямо оттуда будут выгружаться в PPTX, PDF и тд.
- Есть возможность шарить проект с коллегами по организации
- Наконец самое важное — можно сделанный прототип сразу передать в Claude Code, чтобы тот доработал его до полноценной аппки.

Потыкал своими руками

И вот какие впечатления:
1. Работать весьма интуитивно и удобно. Особенно мне зашло то, что все работает в режиме бесконечного канваса, а заметки можно оставлять абсолютно к любому элементу на нем, чтобы Клод точно знал, что вы хотите поправить.
2. Из абсолютно рандомных ассетов (логотип канала, картинка из интернета, free text и текстовое поле) + 1 короткого промпта он сгенерил весьма себе приличный набор логотипов, а потом из них слепил презентацию с анимациями.
3. Claude Design на удивление косячит с текстовым содержанием (возможно, трудности перевода на русский), поэтому лучше текст генерить отдельным заходом.
4. Работает небыстро. На видео я ускорил в 50(!) раз процесс размышления от промпта до фразы "готово". Но под капотом пыхтит новый Опус 4.7. А он очень дотошный и любит все перепроверять.
5. Качество самого дизайна можете оценить сами. На мой вкус весьма хорошечно 👍

Так… а куда это все движется?

А движется это, судя по сливам, к тому, что Anthropic скоро выпустят свой аналог Lovable. Скорее всего Claude Design — это всего лишь промежуточный шаг.

#Заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥124🍾3211
Media is too big
VIEW IN TELEGRAM
Новый Codex моей мечты

На днях выпустили обновленный Codex. Главная фича — управление компьютером. Работает так же, как и все подобные сервисы сейчас — скриншотит экран, оценивает, и нажимает мышкой или выполняет bash команды, если позволяет приложение. Поэтому работает медленно, но достаточно уверенно.

Например, я запустил его играть в шахматы со встроенным алгоритмическим соперником во встроенных шахматах на маке. Просто наблюдать было скучно — поэтому попросил по пути учить меня играть в шахматы. Я залип — реально классный опыт, можно так учиться играть в шахматы 👀

Что еще новенького подъехало


• Интерфейс стал подозрительно напоминать Claude Cowork / Code, хоть и в своем дизайне и со своими деталями. А как так получилось?! 😁
• Появилась возможность открывать созданные документы прямо внутри Codex с наложенным поверх дока окном для дозапросов Кодексу
• Появилась общая память сквозь проекты и запросы. Она знает, над чем вы в целом работаете и чем живете. И благодаря этому Codex проактивно в новом окне предлагает решить какую-то задачу из действительно насущных согласно его воспоминаниям
• Кодексу добавили 90 новых плагинов. Среди них и те, которыми я лично постоянно пользуюсь в Claude, что и делает его для меня супер удобным: Atlassian и Microsoft Suite.

Но давайте обсудим слона в посудной лавке

Да, Codex стал удобным, я бы сказал во многом он догнал Claude Code. Но главная соль не в этом. Главные конкурентные преимущества, которые вы реально почувствуете после перехода с Claude вот какие:
1. Codex ЭКОНОМНЫЙ. Это просто песня. За 1 сессию я завайбкодил целую мини веб игру, а потом полностью портировал ее в локальную версию на Swift (нативный язык приложений для MacOS) — и ни то что, не уперся в лимиты, я даже не потратил 1 полное контекстное окно! Хотя effort стоял на high.
2. Codex не делает мне мозг постоянными вопросами "а можно эту команду выполню", "а еще вот этот файл прочитаю", "а вот тут 1 строчку прочту". Да, конечно, это настраиваемо в Claude — но это геморрой и по дефолту работает не так. А в Кодексе по дефолту (так и называется default permissions) Codex спросил меня в процессе разработки целый игры буквально "можно убью этот процесс?" и "можно запущу созданное приложение" — это реально важные опасные операции, где реально нужен аппрув. Таким образом в Кодексе я снова почувствовал магию агентной разработки. Почувствовал, что я реально делегировал задачу, а не сижу за игровым автоматом, где мне нужно тыкать кнопку "аппрув" на каждый чих.

И оказывается, что этих двух преимуществ при прочих равных оказывается достаточно, чтобы поселить во мне зернышко мысли "а не пора ли переключаться на Codex?"
Ренессанс OpenAI получается ☀️

#Заместители

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍10111
Господа, это новый уровень.
Ищите во всех газетах. Я вам сфоткал на всякий случай.

Заместители
11😁6🤯52👍1🌚11
Google анонсировал пятидневный интенсив по вайбкодингу AI агентов

5-Day AI Agents: Intensive Vibe Coding Course With Google. Это уже третья пятидневка в серии, которую Гуглойды проводят раз в полгода.

Они уже делали интенсив по LLM и по агентам — оба были шикарными. В этот раз, похоже, объединили две темы: вайбкодинг и разработку агентов с акцентом на доведение до прода.

И давайте оставим инфоцыганам, разбираться, как моднее это называть «вайбкодинг» или «агентная разработка». Главное — Гугл делает эти курсы хорошо, очень доступно даже для новичков и собирает в них всегда самую актуальную информацию. Так что это рекомендация отдуши 🫶

А тем, кто сделает финальный проект — дадут сертификат.

Бронируем даты в календарях: 15-19 июня 2026.

Регистрируйтесь заранее. Регистрацию обычно закрывают немного заранее до начала курса. В последний день не получится запрыгнуть.

Содержание интенсива на инфографике 😉

Fun fact: вчера я понял, что вышла новая GPT Image 2, когда сгенерил эту инфографику и прибалдел от качества 😁

#ИИученьесвет

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍84🌚11
This media is not supported in your browser
VIEW IN TELEGRAM
Релизнули Workspace Agents в ChatGPT

Помните, я буквально недавно писал о том, что до AI-коллег остался 1 чисто инженерный шаг. OpenAI его, похоже, сделали 🧐

Выглядит так, что попали в яблочко по всем пунктам:
- Агенты настраиваются чисто промптами в удобном интерфейсе
- Прикручиваются тулы и скиллы = бесконечная гибкость
- Крутятся в облаке и 24/7 проактивны
- Можно шарить созданных агентов со всей командой
- Можно добавить их в чаты мессенджеров как OpenClaw (скорее всего там и подсмотрели). Агента можно просто тегнуть в чате и закинуть вопрос/задачу

В отличие от рутин в Клоде и Managed Agents от Anthropic — OpenAI собрали все воедино в одном месте и сделали это удобно.

Посмотрим, пройдут ли проверку временем — дьявол будет в деталях:
- что с безопасностью
- насколько сложно управлять доступом к самому агенту и к управлению им, если он торчит в канал Слэка
- как управляется память и контекст агента (чтобы он не впитывал все подряд из всех чатов)
- сможет ли он в облаке выполнять более сложную работу (программировать аппки, создавать документы и работать с файлами) или это будет в основном умные говорилки с контекстом

По заверениям OpenAI - все эти вопросы закрыты. Все будет в лучшем виде. Если на практике все будет так же гладко, как на бумаге — это будет имба 🔭

Доступно пока в превью для бизнес и образовательных подписок.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
84🔥33❤‍🔥11