AI и грабли
7.62K subscribers
153 photos
19 videos
4 files
197 links
Строил HR продукты для американского бигтеха. Внедряю AI в чужой бизнес, делаю свой, косячу и пишу про подноготную

@nikolay_sheyko
Download Telegram
Правило Парето в кодинге с ИИ (да и вообще во всех сложных задачах с ИИ)

Вы, наверное, слышали о том, что лучше решать задачи "в один промпт" (ваншотить), а не делать бесконечное количество мелких правок в чате с моделью, растягивая контекст.

У этого подхода в чистом виде есть пара проблем:

1. Он не работает. Ну правда, в реальности результат почти никогда не соответствует ожиданиям на 100%

2. Он жрет много времени, лимитов, денег. Если полностью перезапускать запрос из-за мелкой правки, то придется ждать очередные 2-5-10 минут и тратить сотни тысяч токенов. И то без гарантии, что нет отвалится что-то другое, что до этого получилось хорошо

Но и возник он не на пустом месте – большое количество правок отдельными сообщениями реально ухудшает работу. И проблема тут не только в длине контекста, но и в том, что модель уже пошла по какому-то пути, и ей когнитивно сложно сделать шаг назад и "забыть" неправильную дорогу. Что у нее в контексте – за то и цепляется.

Я для себя вывел, что каждая такая правка примерно в 3-5 раз менее эффективна, чем если писать пожелание в исходном запросе. А значит, с первого запроса должно корректно выполнятся большинство работы. Если это не так, то:

- либо декомпозирую задачу
- либо прописываю больше деталей
- либо спрашиваю агента, чего не хватило или что в исходном запросе помешало получить желаемое, а потом прошу обновить за меня промпт, "стираю память" и перезапускаю

Ну и мысль про правило Парето помогает не подгорать от того, что на 20% правок уходит 80% времени – так и должно быть
36🔥19👍13🤔3👎1
Помните хейт в комментах после моего поста про итоги года от Granola?

Они выкатили целую статью (ссылка внизу), где рассказывают как они их готовили. На мой вкус, очень интересно почитать – понятно, почему их итоги года ощущаются иначе чем то, что делают остальные компании

Записал другу войс с мыслями пока читал. Вот причесанная версия:

→ Ооо, вот все говорят, что промпт инжиниринг умер, а похоже все-таки нет – это по-прежнему серьезная часть создания ИИ фичей (и это мэтчится с моим непопулярным мнением). Просто, это не совсем техническая часть, а скорее продуктовая – тут важно не то, как системе выполнять задачу, а скорее – понять какой результат хотим видеть и почему. Часто это прям совсем в мелочах проявляется: нужен не "ироничный твист" а "слегка ироничный твист"

→ Behavioral vs. Psychological. Мысль вроде очевидная, но я ни разу не формулировал это так в своих запросах к LLM. А надо бы:

Ребята просят не делать выводы о психологии и причинности ("ты просишь валидации, потому что чувствуешь неувернность в своей экспертизе"). Вместо этого, важны обобщения реальных фактов ("часто, после фразы собеседника, ты коротко перефразируешь сказанное"). Что я делаю, а не почему. Потестил на выгрузке канала, получилось интересно (там и про вас есть, хаха). Оставлю в комментах.

→ Похожая штука про комплименты – многие юзеры хейтят лесть, особенно от ИИ. Ребята решили это тем, что упоролись в конкретику и опять же конкретные поведенческие факты. Вместо "ты крутой аналитик""ты несколько раз находил в логах корреляцию между нагрузкой и конфигом, которую другие пропустили". Какие у меня паттерны поведения, а не кто я. Бтв, в обычном общении с людьми тоже хорошо работает

→ Ну и глобально, кажется, у некоторых тулзов уже достаточно много информации про нас для выводов, которые оказываются сюрпризом. "Модель может разглядеть что-то, что юзер сам про себя не замечает". Это забавно

Статья
124👍5🔥5🤝4👌1
Многие из вас пришли в этот канал после ai-dev.live

Возможно, вам интересно, как это проект появлялся. Вышел небольшой текстовый бэкстейдж на 10 минут, как оно выглядело от моего лица.

Там много внутрянки: скрины сообщений, наши сомнения, факапы. Хорошо для почитать на выходных, а не то что я обычно пишу)

https://habr.com/ru/articles/978830/

У кого есть аккаунт на хабре, если поставите лайк – это вроде как поможет подольше подержать статью в топе
🔥31👍84
Мои итоги года

Профессиональные инсайты:

- Cursor + ai.studio → Claude Code + Codex (+ ai.studio)
- Claude Code – лучший кодинговый агент фреймворк создания агентов
- Gemini – лучший pdf→markdown converter
- Google sheets – лучший фронтенд для евалов (ладно, не всегда)
- Granola – лучший транскрибатор звонков и намного больше
- Эмбеддинги сосут (кст, самый зарепосченный мой пост)
- MCP тоже, skills – база
- Просто дайте агенту запускать код

Личное:

- Снова начал выступать и преподавать. Уф, какой же это кайф
- Маме на юбилей оживил кучу старых фоток из физических альбомов (привет, альбомы из Гарри Поттера)
- Поучаствовал в арт-объекте про грань между человеком и ИИ
- Вырастил канал с пары сотен подписчиков до 7к
- Нашел классную онлайн-тусовку людей, близких по вайбу
- Провел с ними две масштабные ИИ конфы

Кстати, сегодня одна из них: тоже итоги года, но от других 7 топовых ребят. С 14:00 до 18:30, либо в записи (да, оно стоит даже того, чтобы не забыть посмотреть запись)

———

Вообще, тоже итог года – понял, что организовывать конференции в таком формате – сомнительное занятие с точки зрения выгод на единицу геморроя

Плюшек – как у спикеров, но вся грязная работа на тебе, а самой приятной части не достается (собственно, побыть спикером). Вроде и получается хорошо, но не знаю, буду ли я что-то такое еще делать.

Короче, присоединяйтесь, пока аттракцион еще точно работает (такая вот искренняя манипуляция дефицитом)

entropy.talk/iitogi25
34👍11🔥11🏆4💔2
Делать прогнозы – дело неблагодарное. Но полезное. Заставляет оглянуться назад и отделить хайп от долгосрочных трендов. Пока катался по горам на байке, наформулировал три прогноза, которые меняют мои планы в 2026ом

1️⃣ Claude Code как агентное ядро для любой нишевой херни.

Что произошло ближе к концу 2025 года – агентность моделей прокачалась достаточно, чтобы уйти от фиксированных воркфлоу к гибким агентным системам. Теперь системы принимают решения о следующем шаге на основе инфы с предыдущего. И это наконец-то работает не только в презентациях

Вот только делать свою агентную систему – запарно. А хорошую агентную систему – еще запарнее. И особенно бомбит от осознания, что повторяешь все шишки, которые уже набили разработчики топового general-purpose агента – Claude Code

Вы скажете, что это специализированный агент для кодинга, но это не так. Любой кастомный агент так же обрастает вызовом тулов, сэндбоксом для запуска скриптов и динамическими промптами aka skills

Все больше команд вместо костыляния своих агентнов, будут брать Claude Agent SDK, докидывать ему нужные скиллы, MCP, рулсы и оборачивать в понятный простому пользователю UI вместо терминала. В конце поста – ссылка на крутой кейс от Рефата

2️⃣ Skills станут более популярными, чем MCP

Для меня и MCP выглядел странно как стандарт. Типа, просто зафиксировали формат вызова внешнего API в виде function calling. А где рокет саенс?

Но это дало простой унифицированный способ подключать внешние инструменты к LLMкам. А во многих компаниях "мы делаем свой MCP" вообще стало самым простым способом для топов отчитаться о наличии "AI стратегии" 📈

Skills – еще более простая штука. По сути – просто папочка с промптами + набор скриптов. У большинства опытных пользователей это и так было – помогает не засирать контекст сотней тулов какого-нибудь github mcp, а просто описать как пользоваться такой волшебной командой как git. А в большинстве случаев даже детали не нужны – ведь агент может просто вызвать <command> --help

А тот факт, что они подгружаются динамически (в зависимости от текущей задачи) – убирает главное ограничение MCP

3️⃣ Стандартный работающий подход к архитектуре постоянной памяти агентов

Это прям новый тейк, родившийся во время разбора лидерборда ERC-3 (соревнование по построению агентских систем)

Я если честно думал, что мы еще далеко от самообучающихся систем. Да, что-то понемногу начинает работать, и даже Claude Code может сам корректировать свой CLAUDE.md, но это детский сад, если честно.

А тут кейс, где цифры говорят сами за себя. В ERC-3 с отрывом аж в 10 процентных пунктов (71.8% vs 62.1%) побеждает решение, где агент сам обучается и "запоминает" результаты предыдущих неудачных попыток.

Да, там это скорее хак – агент делает выводы по прогону сразу на всей паре сотен задач, а не на каждой индивидуально, но это не важно. Важно – что система вообще сходится к оптимуму, сама переписывая свой промпт. В 2024ом у меня такое не работало – ее болтало из стороны в сторону.

Значит, сейчас боттлнек агентских систем смещается – в область того, а что запомнить из предыдущих попыток, какие выводы сделать и как поменять поведение, чтобы не совершать одних и тех же прыжков по граблям при каждом запуске.

4️⃣ (бонус)

Нормальные Tools уже есть – модели уже берут инфу из внешнего мира (и помещают в него обратно). Если будет нормальная внешняя память, то собственные знания модели обо всем на свете – не нужны.

Даже маленькая модель, которая почти ничего не знает, но умеет обращаться с тулами, выявлять паттерны и запоминать точечную информацию – будет эффективнее, чем жирная модель без всего этого. Жду появления быстрых и дешевых LLMок на 1-2b параметров, в которых большая часть весов – не знания, а навыки. Такие execution engine

Ставим ставки?
Если есть другие любопытные прогнозы – делитесь в комментах, интересно, что думаете

Почитать:
- Пост Рефата про Claude Code в качестве agentic core
- Лидерборд соревнования ERC3 с описанием архитектур
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥5726👍10👎1👌1🤡1
Ребята из Anthropic, очевидно, прочитали мой прогноз выше и решили не ждать, пока кто-то другой выполнит пункт 1 – сами сделали версию Claude Code для всех (назвали Cowork)

Про это уже и так все в интернете пописались кипятком (и заслуженно), поэтому добавлю ложку дегтя

Сначала противоречивый тейк про скорость:

- Ребята хвастаются, что сделали все за 1,5 недели и весь код написан Claude Code
- Многие в интернете восхищаются этим
- Забывая, что у Антропиков уже была рабочая core система – оставался только UI и немного подшаманить хранение данных
- А еще, что качество продукта оставляет желать лучшего

Что не так:

- Заметно быстрее высаживает лимиты, чем оригинальный Claude Code
- Из-за сэндбоксинга работает очень медленно
- Не умеет работать с существующими CLAUDE.md и скиллами в файловой системе
- Просто лагает (не надеюсь, что станет сильно лучше – тут и к оригинальному Claude Code есть вопросики)
- Ну и нет всякого базового функционала вроде редактирования предыдущего сообщения

———

Короче, если вы llm power user, но пока не готовы знакомиться с терминалом, то Cowork – это хорошая возможность выйти за рамки привычных инструментов, но хз, стоит ли оно подписки за 100$, которой у вас скорее всего нет. Мб стоит просто добавиться в waitlist

Если у вас уже есть настроенный claude code – Cowork того не стоит, продолжаем сидеть в терминале. Кстати, мало кто про это пишет, но Антропики добавили и полноценный режим Code в свою аппку. Это буквально Claude Code с гуи, но там очень урезанные фичи, так что сидим в терминале

Если вы хотите выжимать максимум, но вы не разработчик и вообще боитесь слова терминал, то все равно советую claude code – там все не так страшно, и любая LLM поможет все настроить (и можно в рамках базовой подписки за 20$)

Но если нужно, чтобы кто-то провел за ручку – ставьте 🙈. Если окажется актуальным, сделаю гайд

———
Релевантные посты из соседних каналов:
Пробитие лимитов | Кейсы | Кейс про НДС | Немного бэкстейджа
———
Waitlist для доступа с обычной подпиской
1🙈8923👍8❤‍🔥3
Сегодня веду эфир про построение агентских систем.

Знаю, что очень большая часть моих подписчиков либо сами строят системы с LLM под капотом, либо менеджерят команды, которые этим занимаются.

Точно будут и верхнеуровневые инсайты, и низкоуровневые детали – все из личного опыта ребят, которые работают на фронтире технологий – в открытом интернете такой инфы просто нет.

Приходите смотреть
👍94🔥1
Стрим про агентов в облаке и на своем железе. Приходите кому интересно (бесплатно).

Делаем расширенную версию докладов с ИИтоги 2025 – Рефат @nobilix с Валерой @neuraldeep, по 40 минут на каждого вместо 20, плюс Q&A.

Если строите AI агентов или планируете - будет полезно разобраться:

Облако (Рефат):
- Почему "просто поменять модель" уже не работает, про агентный API - и какая ситуация с вендор-локом
- Build vs Buy: на чем экономить время, а что строить самим
- Подробнее про кейсы file-first агентов и в этот раз будет время рассказать технические детали

Локально (Валера):
- Какие open-source модели реально тянут десятки тулов без галлюцинаций
- Как запустить агентов на своем железе, если есть требования к безопасности
- MCP в Enterprise: что работает, где грабли

21 января, 19:00 GMT+3. Бесплатно.

📅 Календарь - прямая ссылка на стрим появится там в день эфира
11🔥6👍2
Обходим главное ограничение Сodex (отсутствие субагентов)

Фан факты:

1. В недавнем исследовании от Cursor (сотня агентов неделю писали браузер) оказалось, что gpt-5.2 работает лучше на больших тасках, чем opus-4.5

2. При этом адекватные лимиты у OpenAI можно получить за 20$ против 100$ у Anthropic

3. И при этом в их Codex все еще не завезли субагентов 🙈

4. Зато OpenAI решили хайпануть на запрете Антропиков использовать свою подписку в топ-1 опенсорсном cli-агенте OpenCode – и сделали для них нативную интеграцию своей подписки

TL;DR

Теперь можно использовать субагентов в OpenCode с топовой gpt-5.2 под капотом. И все в рамках базовой подписки на ChatGPT за 20$, которая есть почти у всех
238👍22🔥6😁5
Кодинг-агент в телефоне (ч.1)

Частый вопрос в ИИ чатиках – как работать с ИИ агентом с телефона. Единственный стабильно рабочий совет, который я видел – ставить Claude Code на VPS и подключаться через termius.

Ниже инструкция:

1️⃣ Покупаем VPS. Топ: Hetzner, DigitalOcean. Дешман: RackNerd. В РФ – хз, посоветуйте в комментах

2️⃣ Настраиваем его с sudo доступом без пароля – чтобы агент мог делать все. VPS – по сути сэндбокс

Если вы не опытный пользователь linux, то просто открываем Claude Code локально и вставляем этот промпт для базовой настройки:

Помоги мне настроить VPS, чтобы запускать кодингового агента – проведи меня за ручку по всем важным этапам, а там где можешь выполнять команды самостоятельно (в т.ч. через SSH), делай это (но гранулярно, без огромных скриптов)

Требования:

Базовая настройка:

- Новый пользователь agent с sudo без пароля, чтобы агент мог сам запускать sudo-команды без интерактивного режима
- Доступ по ssh-ключу к новому пользователю agent (заранее сгенерируй ssh-ключи локально)
- Доступ к root-пользователю должен быть закрыт. Доступ по паролю – тоже
- Файерволл и fail2ban

Дополнительные настройки:

- Адекватная настройка bash history
- Swap 2GB
- Caddy
- uv для python и bun для javascript – через install.sh скрипты (найди в интернете)
- Docker + Compose v2 (добавить agent в группу docker)

ВАЖНО:

- Во время работы ты не должен получать доступ к секретам (пароль VPS, приватный ssh ключ, etc)
- Если что-то требует ввода секретных данных, то проси меня делать вручную
- В остальных случаях старайся использовать non-interactive режим, чтобы я участвовал в процессе минимально
- Задавай уточняющие вопросы, если есть что-то, что не прописано явно


3️⃣ Скачиваем и подключаем Termius на телефон

Тут все просто – добавляем ip, пароль оставляем пустым, на плашку AI Agent можно забить. Единственная сложность – нужно сразу создать ssh ключи и прокинуть публичный на VPS

Credentials → SSH.id, Key, Certificate, FIDO2 → Generate key → ✔️

Почему-то скопировать публичный ключ прям отсюда нельзя. Поэтому сохраняем настройки, возвращаемся в главное меню Vault → Keychain → ED25519-00 → 📤 → Copy Public Key

Дальше с десктопа:
ssh agent "printf '%s\n' 'ВСТАВЛЯЕМ СЮДА КЛЮЧ' >> ~/.ssh/authorized_keys"


Возвращаемся в Vault → Hosts, тапаем на созданный сервер, оказываемся в командной строке, вуаля

Осталось установить Claude Code:

curl -fsSL https://claude.ai/install.sh | bash


Дальше пишем claude и получаем красоту на скрине выше.

Из комментов (спасибо @nobilix):

1) без tmux никуда - соединение рвется, а с tmux - просто супер
2) в Termius важно включить галочку "Use Mosh" - будет моментальный отклик на нажатие клавиш
3) в Termius есть встроенный SFTP - оч удобно по файлам бегать и читать (использует тот же конфиг)
4) сменить дефолтный порт с 22 на другой (безопасность)
5) можно настроить пуш уведомления через хуки CC


Вот, теперь можно не вылезать из CC даже в туалете

@ai_grably
11🔥33👍1912🤝3
Кодинг-агент в телефоне (ч.2)

В прошлом посте расписал дефолтный подход с termius. Но консольный UX на тачскрине – достаточно сомнительный. Так что у меня давно чесались руки затестить еще одну идею, которую еще нигде не видел. И вот вчера руки наконец дошли

В чем идея:

1. Есть очень хороший кодинговый агент OpenCode. Пожалуй, ближайший к CC по плотности фич, а по качеству реализации, пожалуй, даже лучше

2. В отличие от остальных агентов, он написан в классическом клиент-серверном подходе – отдельно бэк, отдельно фронт

3. И у него есть два фронта – уже привычный нам консольный текстовый UI и веб версия

Короче, вы уже догадались – можно сервить на VPS сразу веб версию и подключаться к ней с любого устройства, где есть браузер (см. скрин выше)

Дальше – пошаговый гайд + подводные камни:

1️⃣ Берем инструкцию из предыдущего поста и настраиваем себе VPS с нуля – у агента будет полный доступ к нему

2️⃣ Ставим opencode. В любом агенте на локальном устройстве пишем:

Настрой мне opencode web на удаленной машине (подключаться через ssh agent):
1. Изучи документацию opencode
2. Установи opencode
3. Настрой caddy (с моим доменом или просто http – обсуди со мной оба варианта)
4. Настрой запуск в бэкграунде (tmux, docker, pm2, systemd – помоги мне выбрать)
5. Создай папку ~/projects

- Сначала вместе сформулируем план, а после моего аппрува пойдешь выполнять (или говорить мне, что выполнить, если нужен интерактивный ввод).
- Выполняй команды гранулярно (двигаемся step-by-step)
- Обязательно настрой доступ к OpenCode по паролю
- Не читай и не запрашивай пароли – они не должны оказаться у тебя в контексте


Опционально: просим настроить в caddy Oauth через GitHub вместо багованного Basic Auth опенкода

3️⃣ Подключаем подписку

Недавно OpenAI сделали нативную интеграцию с OpenCode и обычная ChatGPT подписка за 20$ дает жирные лимиты на топовую gpt-5.2

1. Открываем только что задеплоенный opencode
2. Пишем /model в чате
3. В открывшемся окне – Connect Provider справа вверху
4. Переходим по ссылке в лк OpenAI и даем доступ

❗️Тут проблема – флоу OpenAI редиректит на http://localhost:1455, OpenCode ждет ответ не локально, а на VPS

Решение: перед попыткой входом временно пробрасываем порты в отдельном терминале
ssh -L 1455:localhost:1455 agent -N


4️⃣ Создаем WebApp на смартфоне

Открываем адрес нашего OpenCode в Safary → ··· меню → share → добавить на домашний экран (скрины в комментах)

Кстати, так же можно создать WebApp и на десктопе, чтобы это было как отдельное приложение, а не одна из сотен вкладок в браузере (скрин в комментах)

———

Готово, у вас есть агент с полноценным UI, который доступен с любого устройства и поддерживает почти все современные фичи – CLAUDE.md/AGENT.md, MCP, LSP, skills, subagents

Бонус: теперь вы знаете как поднять такое для нетехнических сотрудников.

Ваш, @ai_grably
22👍13🔥10
Надиктовал промпт в CLI агенте – а он схлопнулся в [Pasted text +24 lines].

Запускаешь, а там артефакты от диктовки → в итоге агент 5 минут делает не то, что нужно

Узнали?

Не понимаю, зачем это сделали дефолтным поведением.
Короче, вот как пофиксить этот бред:

OpenCode

~/.config/opencode/opencode.json
{
"experimental": {
"disable_paste_summary": true
}
}


Codex CLI

Не лечится :(

Claude Code

Официальной настройки пока нет. Workaround: Ctrl+G перед отправкой — откроет prompt в редакторе, там видно весь текст.
Либо отправка, сразу ESC чтобы остановить, и еще раз ESC, чтобы сделать undo и вернуться к редактированию 🥴

Следить за issue: github.com/anthropics/claude-code/issues/3412

———

Заботимся о своем Developer Experience

@ai_grably
3👍35🤝2