Правило Парето в кодинге с ИИ (да и вообще во всех сложных задачах с ИИ)
Вы, наверное, слышали о том, что лучше решать задачи "в один промпт" (ваншотить), а не делать бесконечное количество мелких правок в чате с моделью, растягивая контекст.
У этого подхода в чистом виде есть пара проблем:
1. Он не работает. Ну правда, в реальности результат почти никогда не соответствует ожиданиям на 100%
2. Он жрет много времени, лимитов, денег. Если полностью перезапускать запрос из-за мелкой правки, то придется ждать очередные 2-5-10 минут и тратить сотни тысяч токенов. И то без гарантии, что нет отвалится что-то другое, что до этого получилось хорошо
Но и возник он не на пустом месте – большое количество правок отдельными сообщениями реально ухудшает работу. И проблема тут не только в длине контекста, но и в том, что модель уже пошла по какому-то пути, и ей когнитивно сложно сделать шаг назад и "забыть" неправильную дорогу. Что у нее в контексте – за то и цепляется.
Я для себя вывел, что каждая такая правка примерно в 3-5 раз менее эффективна, чем если писать пожелание в исходном запросе. А значит, с первого запроса должно корректно выполнятся большинство работы. Если это не так, то:
- либо декомпозирую задачу
- либо прописываю больше деталей
- либо спрашиваю агента, чего не хватило или что в исходном запросе помешало получить желаемое, а потом прошу обновить за меня промпт, "стираю память" и перезапускаю
Ну и мысль про правило Парето помогает не подгорать от того, что на 20% правок уходит 80% времени – так и должно быть
Вы, наверное, слышали о том, что лучше решать задачи "в один промпт" (ваншотить), а не делать бесконечное количество мелких правок в чате с моделью, растягивая контекст.
У этого подхода в чистом виде есть пара проблем:
1. Он не работает. Ну правда, в реальности результат почти никогда не соответствует ожиданиям на 100%
2. Он жрет много времени, лимитов, денег. Если полностью перезапускать запрос из-за мелкой правки, то придется ждать очередные 2-5-10 минут и тратить сотни тысяч токенов. И то без гарантии, что нет отвалится что-то другое, что до этого получилось хорошо
Но и возник он не на пустом месте – большое количество правок отдельными сообщениями реально ухудшает работу. И проблема тут не только в длине контекста, но и в том, что модель уже пошла по какому-то пути, и ей когнитивно сложно сделать шаг назад и "забыть" неправильную дорогу. Что у нее в контексте – за то и цепляется.
Я для себя вывел, что каждая такая правка примерно в 3-5 раз менее эффективна, чем если писать пожелание в исходном запросе. А значит, с первого запроса должно корректно выполнятся большинство работы. Если это не так, то:
- либо декомпозирую задачу
- либо прописываю больше деталей
- либо спрашиваю агента, чего не хватило или что в исходном запросе помешало получить желаемое, а потом прошу обновить за меня промпт, "стираю память" и перезапускаю
Ну и мысль про правило Парето помогает не подгорать от того, что на 20% правок уходит 80% времени – так и должно быть
❤36🔥19👍13🤔3👎1
Помните хейт в комментах после моего поста про итоги года от Granola?
Они выкатили целую статью (ссылка внизу), где рассказывают как они их готовили. На мой вкус, очень интересно почитать – понятно, почему их итоги года ощущаются иначе чем то, что делают остальные компании
Записал другу войс с мыслями пока читал. Вот причесанная версия:
→ Ооо, вот все говорят, что промпт инжиниринг умер, а похоже все-таки нет – это по-прежнему серьезная часть создания ИИ фичей (и это мэтчится с моим непопулярным мнением). Просто, это не совсем техническая часть, а скорее продуктовая – тут важно не то, как системе выполнять задачу, а скорее – понять какой результат хотим видеть и почему. Часто это прям совсем в мелочах проявляется: нужен не "ироничный твист" а "слегка ироничный твист"
→ Behavioral vs. Psychological. Мысль вроде очевидная, но я ни разу не формулировал это так в своих запросах к LLM. А надо бы:
Ребята просят не делать выводы о психологии и причинности ("ты просишь валидации, потому что чувствуешь неувернность в своей экспертизе"). Вместо этого, важны обобщения реальных фактов ("часто, после фразы собеседника, ты коротко перефразируешь сказанное"). Что я делаю, а не почему. Потестил на выгрузке канала, получилось интересно (там и про вас есть, хаха). Оставлю в комментах.
→ Похожая штука про комплименты – многие юзеры хейтят лесть, особенно от ИИ. Ребята решили это тем, что упоролись в конкретику и опять же конкретные поведенческие факты. Вместо "ты крутой аналитик" – "ты несколько раз находил в логах корреляцию между нагрузкой и конфигом, которую другие пропустили". Какие у меня паттерны поведения, а не кто я. Бтв, в обычном общении с людьми тоже хорошо работает
→ Ну и глобально, кажется, у некоторых тулзов уже достаточно много информации про нас для выводов, которые оказываются сюрпризом. "Модель может разглядеть что-то, что юзер сам про себя не замечает". Это забавно
Статья
Они выкатили целую статью (ссылка внизу), где рассказывают как они их готовили. На мой вкус, очень интересно почитать – понятно, почему их итоги года ощущаются иначе чем то, что делают остальные компании
Записал другу войс с мыслями пока читал. Вот причесанная версия:
→ Ооо, вот все говорят, что промпт инжиниринг умер, а похоже все-таки нет – это по-прежнему серьезная часть создания ИИ фичей (и это мэтчится с моим непопулярным мнением). Просто, это не совсем техническая часть, а скорее продуктовая – тут важно не то, как системе выполнять задачу, а скорее – понять какой результат хотим видеть и почему. Часто это прям совсем в мелочах проявляется: нужен не "ироничный твист" а "слегка ироничный твист"
→ Behavioral vs. Psychological. Мысль вроде очевидная, но я ни разу не формулировал это так в своих запросах к LLM. А надо бы:
Ребята просят не делать выводы о психологии и причинности ("ты просишь валидации, потому что чувствуешь неувернность в своей экспертизе"). Вместо этого, важны обобщения реальных фактов ("часто, после фразы собеседника, ты коротко перефразируешь сказанное"). Что я делаю, а не почему. Потестил на выгрузке канала, получилось интересно (там и про вас есть, хаха). Оставлю в комментах.
→ Похожая штука про комплименты – многие юзеры хейтят лесть, особенно от ИИ. Ребята решили это тем, что упоролись в конкретику и опять же конкретные поведенческие факты. Вместо "ты крутой аналитик" – "ты несколько раз находил в логах корреляцию между нагрузкой и конфигом, которую другие пропустили". Какие у меня паттерны поведения, а не кто я.
→ Ну и глобально, кажется, у некоторых тулзов уже достаточно много информации про нас для выводов, которые оказываются сюрпризом. "Модель может разглядеть что-то, что юзер сам про себя не замечает". Это забавно
Статья
Granola
How we wrote the prompts behind Granola's Crunched 2025
The challenge of building Granola Crunched was as much tonal as it was technical. Here's how we engineered prompts that felt recognizable, observational, funny, and shareable—while avoiding anything creepy, personal, or emotionally speculative.
1❤24👍5🔥5🤝4👌1
Многие из вас пришли в этот канал после ai-dev.live
Возможно, вам интересно, как это проект появлялся. Вышел небольшой текстовый бэкстейдж на 10 минут, как оно выглядело от моего лица.
Там много внутрянки: скрины сообщений, наши сомнения, факапы. Хорошо для почитать на выходных, а не то что я обычно пишу)
https://habr.com/ru/articles/978830/
У кого есть аккаунт на хабре, если поставите лайк – это вроде как поможет подольше подержать статью в топе
Возможно, вам интересно, как это проект появлялся. Вышел небольшой текстовый бэкстейдж на 10 минут, как оно выглядело от моего лица.
Там много внутрянки: скрины сообщений, наши сомнения, факапы. Хорошо для почитать на выходных, а не то что я обычно пишу)
https://habr.com/ru/articles/978830/
У кого есть аккаунт на хабре, если поставите лайк – это вроде как поможет подольше подержать статью в топе
Хабр
Как несколько технарей сделали топ-1 конфу на русском по ИИ в разработке
Всё началось с идеи небольшого гаражного междусобойчика на 400 зрителей, но быстро вышло из под контроля – 10 топовых спикеров, 3000 зрителей, пост на хабре на 40к просмотров (и 200 комментариев!) и...
🔥31👍8❤4
Мои итоги года
Профессиональные инсайты:
- Cursor + ai.studio → Claude Code + Codex(+ ai.studio )
- Claude Code – лучшийкодинговый агент фреймворк создания агентов
- Gemini – лучший pdf→markdown converter
- Google sheets – лучший фронтенд для евалов (ладно, не всегда)
- Granola – лучший транскрибатор звонков и намного больше
- Эмбеддинги сосут (кст, самый зарепосченный мой пост)
- MCP тоже, skills – база
- Просто дайте агенту запускать код
Личное:
- Снова начал выступать и преподавать. Уф, какой же это кайф
- Маме на юбилей оживил кучу старых фоток из физических альбомов (привет, альбомы из Гарри Поттера)
- Поучаствовал в арт-объекте про грань между человеком и ИИ
- Вырастил канал с пары сотен подписчиков до 7к
- Нашел классную онлайн-тусовку людей, близких по вайбу
- Провел с ними две масштабные ИИ конфы
Кстати, сегодня одна из них: тоже итоги года, но от других 7 топовых ребят. С 14:00 до 18:30, либо в записи (да, оно стоит даже того, чтобы не забыть посмотреть запись)
———
Вообще, тоже итог года – понял, что организовывать конференции в таком формате – сомнительное занятие с точки зрения выгод на единицу геморроя
Плюшек – как у спикеров, но вся грязная работа на тебе, а самой приятной части не достается (собственно, побыть спикером). Вроде и получается хорошо, но не знаю, буду ли я что-то такое еще делать.
Короче, присоединяйтесь, пока аттракцион еще точно работает (такая вот искренняя манипуляция дефицитом)
entropy.talk/iitogi25
Профессиональные инсайты:
- Cursor + ai.studio → Claude Code + Codex
- Claude Code – лучший
- Gemini – лучший pdf→markdown converter
- Google sheets – лучший фронтенд для евалов (ладно, не всегда)
- Granola – лучший транскрибатор звонков и намного больше
- Эмбеддинги сосут (кст, самый зарепосченный мой пост)
- MCP тоже, skills – база
- Просто дайте агенту запускать код
Личное:
- Снова начал выступать и преподавать. Уф, какой же это кайф
- Маме на юбилей оживил кучу старых фоток из физических альбомов (привет, альбомы из Гарри Поттера)
- Поучаствовал в арт-объекте про грань между человеком и ИИ
- Вырастил канал с пары сотен подписчиков до 7к
- Нашел классную онлайн-тусовку людей, близких по вайбу
- Провел с ними две масштабные ИИ конфы
Кстати, сегодня одна из них: тоже итоги года, но от других 7 топовых ребят. С 14:00 до 18:30, либо в записи (да, оно стоит даже того, чтобы не забыть посмотреть запись)
———
Вообще, тоже итог года – понял, что организовывать конференции в таком формате – сомнительное занятие с точки зрения выгод на единицу геморроя
Плюшек – как у спикеров, но вся грязная работа на тебе, а самой приятной части не достается (собственно, побыть спикером). Вроде и получается хорошо, но не знаю, буду ли я что-то такое еще делать.
Короче, присоединяйтесь, пока аттракцион еще точно работает (такая вот искренняя манипуляция дефицитом)
entropy.talk/iitogi25
ИИтоги 25
Практическая онлайн-конференция про изменения в AI индустрии за 2025 год.
❤34👍11🔥11🏆4💔2
Делать прогнозы – дело неблагодарное. Но полезное. Заставляет оглянуться назад и отделить хайп от долгосрочных трендов. Пока катался по горам на байке, наформулировал три прогноза, которые меняют мои планы в 2026ом
1️⃣ Claude Code как агентное ядро для любой нишевой херни.
Что произошло ближе к концу 2025 года – агентность моделей прокачалась достаточно, чтобы уйти от фиксированных воркфлоу к гибким агентным системам. Теперь системы принимают решения о следующем шаге на основе инфы с предыдущего. И это наконец-то работает не только в презентациях
Вот только делать свою агентную систему – запарно. А хорошую агентную систему – еще запарнее. И особенно бомбит от осознания, что повторяешь все шишки, которые уже набили разработчики топового general-purpose агента – Claude Code
Вы скажете, что это специализированный агент для кодинга, но это не так. Любой кастомный агент так же обрастает вызовом тулов, сэндбоксом для запуска скриптов и динамическими промптами aka skills
Все больше команд вместо костыляния своих агентнов, будут брать Claude Agent SDK, докидывать ему нужные скиллы, MCP, рулсы и оборачивать в понятный простому пользователю UI вместо терминала. В конце поста – ссылка на крутой кейс от Рефата
2️⃣ Skills станут более популярными, чем MCP
Для меня и MCP выглядел странно как стандарт. Типа, просто зафиксировали формат вызова внешнего API в виде function calling. А где рокет саенс?
Но это дало простой унифицированный способ подключать внешние инструменты к LLMкам. А во многих компаниях "мы делаем свой MCP" вообще стало самым простым способом для топов отчитаться о наличии "AI стратегии"📈
Skills – еще более простая штука. По сути – просто папочка с промптами + набор скриптов. У большинства опытных пользователей это и так было – помогает не засирать контекст сотней тулов какого-нибудь github mcp, а просто описать как пользоваться такой волшебной командой как git. А в большинстве случаев даже детали не нужны – ведь агент может просто вызвать
А тот факт, что они подгружаются динамически (в зависимости от текущей задачи) – убирает главное ограничение MCP
3️⃣ Стандартный работающий подход к архитектуре постоянной памяти агентов
Это прям новый тейк, родившийся во время разбора лидерборда ERC-3 (соревнование по построению агентских систем)
Я если честно думал, что мы еще далеко от самообучающихся систем. Да, что-то понемногу начинает работать, и даже Claude Code может сам корректировать свой CLAUDE.md, но это детский сад, если честно.
А тут кейс, где цифры говорят сами за себя. В ERC-3 с отрывом аж в 10 процентных пунктов (71.8% vs 62.1%) побеждает решение, где агент сам обучается и "запоминает" результаты предыдущих неудачных попыток.
Да, там это скорее хак – агент делает выводы по прогону сразу на всей паре сотен задач, а не на каждой индивидуально, но это не важно. Важно – что система вообще сходится к оптимуму, сама переписывая свой промпт. В 2024ом у меня такое не работало – ее болтало из стороны в сторону.
Значит, сейчас боттлнек агентских систем смещается – в область того, а что запомнить из предыдущих попыток, какие выводы сделать и как поменять поведение, чтобы не совершать одних и тех же прыжков по граблям при каждом запуске.
4️⃣ (бонус)
Нормальные Tools уже есть – модели уже берут инфу из внешнего мира (и помещают в него обратно). Если будет нормальная внешняя память, то собственные знания модели обо всем на свете – не нужны.
Даже маленькая модель, которая почти ничего не знает, но умеет обращаться с тулами, выявлять паттерны и запоминать точечную информацию – будет эффективнее, чем жирная модель без всего этого. Жду появления быстрых и дешевых LLMок на 1-2b параметров, в которых большая часть весов – не знания, а навыки. Такие execution engine
Ставим ставки?
Если есть другие любопытные прогнозы – делитесь в комментах, интересно, что думаете
Почитать:
- Пост Рефата про Claude Code в качестве agentic core
- Лидерборд соревнования ERC3 с описанием архитектур
1️⃣ Claude Code как агентное ядро для любой нишевой херни.
Что произошло ближе к концу 2025 года – агентность моделей прокачалась достаточно, чтобы уйти от фиксированных воркфлоу к гибким агентным системам. Теперь системы принимают решения о следующем шаге на основе инфы с предыдущего. И это наконец-то работает не только в презентациях
Вот только делать свою агентную систему – запарно. А хорошую агентную систему – еще запарнее. И особенно бомбит от осознания, что повторяешь все шишки, которые уже набили разработчики топового general-purpose агента – Claude Code
Вы скажете, что это специализированный агент для кодинга, но это не так. Любой кастомный агент так же обрастает вызовом тулов, сэндбоксом для запуска скриптов и динамическими промптами aka skills
Все больше команд вместо костыляния своих агентнов, будут брать Claude Agent SDK, докидывать ему нужные скиллы, MCP, рулсы и оборачивать в понятный простому пользователю UI вместо терминала. В конце поста – ссылка на крутой кейс от Рефата
2️⃣ Skills станут более популярными, чем MCP
Для меня и MCP выглядел странно как стандарт. Типа, просто зафиксировали формат вызова внешнего API в виде function calling. А где рокет саенс?
Но это дало простой унифицированный способ подключать внешние инструменты к LLMкам. А во многих компаниях "мы делаем свой MCP" вообще стало самым простым способом для топов отчитаться о наличии "AI стратегии"
Skills – еще более простая штука. По сути – просто папочка с промптами + набор скриптов. У большинства опытных пользователей это и так было – помогает не засирать контекст сотней тулов какого-нибудь github mcp, а просто описать как пользоваться такой волшебной командой как git. А в большинстве случаев даже детали не нужны – ведь агент может просто вызвать
<command> --helpА тот факт, что они подгружаются динамически (в зависимости от текущей задачи) – убирает главное ограничение MCP
3️⃣ Стандартный работающий подход к архитектуре постоянной памяти агентов
Это прям новый тейк, родившийся во время разбора лидерборда ERC-3 (соревнование по построению агентских систем)
Я если честно думал, что мы еще далеко от самообучающихся систем. Да, что-то понемногу начинает работать, и даже Claude Code может сам корректировать свой CLAUDE.md, но это детский сад, если честно.
А тут кейс, где цифры говорят сами за себя. В ERC-3 с отрывом аж в 10 процентных пунктов (71.8% vs 62.1%) побеждает решение, где агент сам обучается и "запоминает" результаты предыдущих неудачных попыток.
Да, там это скорее хак – агент делает выводы по прогону сразу на всей паре сотен задач, а не на каждой индивидуально, но это не важно. Важно – что система вообще сходится к оптимуму, сама переписывая свой промпт. В 2024ом у меня такое не работало – ее болтало из стороны в сторону.
Значит, сейчас боттлнек агентских систем смещается – в область того, а что запомнить из предыдущих попыток, какие выводы сделать и как поменять поведение, чтобы не совершать одних и тех же прыжков по граблям при каждом запуске.
4️⃣ (бонус)
Нормальные Tools уже есть – модели уже берут инфу из внешнего мира (и помещают в него обратно). Если будет нормальная внешняя память, то собственные знания модели обо всем на свете – не нужны.
Даже маленькая модель, которая почти ничего не знает, но умеет обращаться с тулами, выявлять паттерны и запоминать точечную информацию – будет эффективнее, чем жирная модель без всего этого. Жду появления быстрых и дешевых LLMок на 1-2b параметров, в которых большая часть весов – не знания, а навыки. Такие execution engine
Ставим ставки?
Если есть другие любопытные прогнозы – делитесь в комментах, интересно, что думаете
Почитать:
- Пост Рефата про Claude Code в качестве agentic core
- Лидерборд соревнования ERC3 с описанием архитектур
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥57❤26👍10👎1👌1🤡1
Ребята из Anthropic, очевидно, прочитали мой прогноз выше и решили не ждать, пока кто-то другой выполнит пункт 1 – сами сделали версию Claude Code для всех (назвали Cowork)
Про это уже и так все в интернете пописались кипятком (и заслуженно), поэтому добавлю ложку дегтя
Сначала противоречивый тейк про скорость:
- Ребята хвастаются, что сделали все за 1,5 недели и весь код написан Claude Code
- Многие в интернете восхищаются этим
- Забывая, что у Антропиков уже была рабочая core система – оставался только UI и немного подшаманить хранение данных
- А еще, что качество продукта оставляет желать лучшего
Что не так:
- Заметно быстрее высаживает лимиты, чем оригинальный Claude Code
- Из-за сэндбоксинга работает очень медленно
- Не умеет работать с существующими CLAUDE.md и скиллами в файловой системе
- Просто лагает (не надеюсь, что станет сильно лучше – тут и к оригинальному Claude Code есть вопросики)
- Ну и нет всякого базового функционала вроде редактирования предыдущего сообщения
———
Короче, если вы llm power user, но пока не готовы знакомиться с терминалом, то Cowork – это хорошая возможность выйти за рамки привычных инструментов, но хз, стоит ли оно подписки за 100$, которой у вас скорее всего нет. Мб стоит просто добавиться в waitlist
Если у вас уже есть настроенный claude code – Cowork того не стоит, продолжаем сидеть в терминале. Кстати, мало кто про это пишет, но Антропики добавили и полноценный режим Code в свою аппку. Это буквально Claude Code с гуи, но там очень урезанные фичи, так чтосидим в терминале
Если вы хотите выжимать максимум, но вы не разработчик и вообще боитесь слова терминал, то все равно советую claude code – там все не так страшно, и любая LLM поможет все настроить (и можно в рамках базовой подписки за 20$)
Но если нужно, чтобы кто-то провел за ручку – ставьте 🙈. Если окажется актуальным, сделаю гайд
———
Релевантные посты из соседних каналов:
Пробитие лимитов | Кейсы | Кейс про НДС | Немного бэкстейджа
———
Waitlist для доступа с обычной подпиской
Про это уже и так все в интернете пописались кипятком (и заслуженно), поэтому добавлю ложку дегтя
Сначала противоречивый тейк про скорость:
- Ребята хвастаются, что сделали все за 1,5 недели и весь код написан Claude Code
- Многие в интернете восхищаются этим
- Забывая, что у Антропиков уже была рабочая core система – оставался только UI и немного подшаманить хранение данных
- А еще, что качество продукта оставляет желать лучшего
Что не так:
- Заметно быстрее высаживает лимиты, чем оригинальный Claude Code
- Из-за сэндбоксинга работает очень медленно
- Не умеет работать с существующими CLAUDE.md и скиллами в файловой системе
- Просто лагает (не надеюсь, что станет сильно лучше – тут и к оригинальному Claude Code есть вопросики)
- Ну и нет всякого базового функционала вроде редактирования предыдущего сообщения
———
Короче, если вы llm power user, но пока не готовы знакомиться с терминалом, то Cowork – это хорошая возможность выйти за рамки привычных инструментов, но хз, стоит ли оно подписки за 100$, которой у вас скорее всего нет. Мб стоит просто добавиться в waitlist
Если у вас уже есть настроенный claude code – Cowork того не стоит, продолжаем сидеть в терминале. Кстати, мало кто про это пишет, но Антропики добавили и полноценный режим Code в свою аппку. Это буквально Claude Code с гуи, но там очень урезанные фичи, так что
Если вы хотите выжимать максимум, но вы не разработчик и вообще боитесь слова терминал, то все равно советую claude code – там все не так страшно, и любая LLM поможет все настроить (и можно в рамках базовой подписки за 20$)
Но если нужно, чтобы кто-то провел за ручку – ставьте 🙈. Если окажется актуальным, сделаю гайд
———
Релевантные посты из соседних каналов:
Пробитие лимитов | Кейсы | Кейс про НДС | Немного бэкстейджа
———
Waitlist для доступа с обычной подпиской
1🙈89❤23👍8❤🔥3
Сегодня веду эфир про построение агентских систем.
Знаю, что очень большая часть моих подписчиков либо сами строят системы с LLM под капотом, либо менеджерят команды, которые этим занимаются.
Точно будут и верхнеуровневые инсайты, и низкоуровневые детали – все из личного опыта ребят, которые работают на фронтире технологий – в открытом интернете такой инфы просто нет.
Приходите смотреть
Знаю, что очень большая часть моих подписчиков либо сами строят системы с LLM под капотом, либо менеджерят команды, которые этим занимаются.
Точно будут и верхнеуровневые инсайты, и низкоуровневые детали – все из личного опыта ребят, которые работают на фронтире технологий – в открытом интернете такой инфы просто нет.
Приходите смотреть
👍9❤4🔥1
Forwarded from Entropy Talk: AI и разработка
Стрим про агентов в облаке и на своем железе. Приходите кому интересно (бесплатно).
Делаем расширенную версию докладов с ИИтоги 2025 – Рефат @nobilix с Валерой @neuraldeep, по 40 минут на каждого вместо 20, плюс Q&A.
Если строите AI агентов или планируете - будет полезно разобраться:
Облако (Рефат):
- Почему "просто поменять модель" уже не работает, про агентный API - и какая ситуация с вендор-локом
- Build vs Buy: на чем экономить время, а что строить самим
- Подробнее про кейсы file-first агентов и в этот раз будет время рассказать технические детали
Локально (Валера):
- Какие open-source модели реально тянут десятки тулов без галлюцинаций
- Как запустить агентов на своем железе, если есть требования к безопасности
- MCP в Enterprise: что работает, где грабли
21 января, 19:00
📅 Календарь - прямая ссылка на стрим появится там в день эфира
Делаем расширенную версию докладов с ИИтоги 2025 – Рефат @nobilix с Валерой @neuraldeep, по 40 минут на каждого вместо 20, плюс Q&A.
Если строите AI агентов или планируете - будет полезно разобраться:
Облако (Рефат):
- Почему "просто поменять модель" уже не работает, про агентный API - и какая ситуация с вендор-локом
- Build vs Buy: на чем экономить время, а что строить самим
- Подробнее про кейсы file-first агентов и в этот раз будет время рассказать технические детали
Локально (Валера):
- Какие open-source модели реально тянут десятки тулов без галлюцинаций
- Как запустить агентов на своем железе, если есть требования к безопасности
- MCP в Enterprise: что работает, где грабли
21 января, 19:00
GMT+3. Бесплатно.📅 Календарь - прямая ссылка на стрим появится там в день эфира
❤11🔥6👍2
Forwarded from Entropy Talk: AI и разработка
Начинаем эфир через 5 минут:
https://www.youtube.com/live/7toDgSozmEs
https://www.youtube.com/live/7toDgSozmEs
YouTube
AI engineering в 2026 – вендор-лок, агентский поиск и опенсорс
Каналы спикеров:
Рефат Аметов – https://t.me/nobilix
Валерий Ковальский – https://t.me/neuraldeep
Николай Шейко – https://t.me/ai_grably
Остальные доклады с конференции → https://entropy.talk/iitogi25
Анонсы следующих мероприятий → https://t.me/entropy_talk
Рефат Аметов – https://t.me/nobilix
Валерий Ковальский – https://t.me/neuraldeep
Николай Шейко – https://t.me/ai_grably
Остальные доклады с конференции → https://entropy.talk/iitogi25
Анонсы следующих мероприятий → https://t.me/entropy_talk
🔥15
Обходим главное ограничение Сodex (отсутствие субагентов)
Фан факты:
1. В недавнем исследовании от Cursor (сотня агентов неделю писали браузер) оказалось, что gpt-5.2 работает лучше на больших тасках, чем opus-4.5
2. При этом адекватные лимиты у OpenAI можно получить за 20$ против 100$ у Anthropic
3. И при этом в их Codex все еще не завезли субагентов 🙈
4. Зато OpenAI решили хайпануть на запрете Антропиков использовать свою подписку в топ-1 опенсорсном cli-агенте OpenCode – и сделали для них нативную интеграцию своей подписки
TL;DR
Теперь можно использовать субагентов в OpenCode с топовой gpt-5.2 под капотом. И все в рамках базовой подписки на ChatGPT за 20$, которая есть почти у всех
Фан факты:
1. В недавнем исследовании от Cursor (сотня агентов неделю писали браузер) оказалось, что gpt-5.2 работает лучше на больших тасках, чем opus-4.5
2. При этом адекватные лимиты у OpenAI можно получить за 20$ против 100$ у Anthropic
3. И при этом в их Codex все еще не завезли субагентов 🙈
4. Зато OpenAI решили хайпануть на запрете Антропиков использовать свою подписку в топ-1 опенсорсном cli-агенте OpenCode – и сделали для них нативную интеграцию своей подписки
TL;DR
Теперь можно использовать субагентов в OpenCode с топовой gpt-5.2 под капотом. И все в рамках базовой подписки на ChatGPT за 20$, которая есть почти у всех
2❤38👍22🔥6😁5
Кодинг-агент в телефоне (ч.1)
Частый вопрос в ИИ чатиках – как работать с ИИ агентом с телефона. Единственный стабильно рабочий совет, который я видел – ставить Claude Code на VPS и подключаться через termius.
Ниже инструкция:
1️⃣ Покупаем VPS. Топ: Hetzner, DigitalOcean. Дешман: RackNerd. В РФ – хз, посоветуйте в комментах
2️⃣ Настраиваем его с sudo доступом без пароля – чтобы агент мог делать все. VPS – по сути сэндбокс
Если вы не опытный пользователь linux, то просто открываем Claude Code локально и вставляем этот промпт для базовой настройки:
3️⃣ Скачиваем и подключаем Termius на телефон
Тут все просто – добавляем ip, пароль оставляем пустым, на плашку AI Agent можно забить. Единственная сложность – нужно сразу создать ssh ключи и прокинуть публичный на VPS
Credentials → SSH.id, Key, Certificate, FIDO2 → Generate key → ✔️
Почему-то скопировать публичный ключ прям отсюда нельзя. Поэтому сохраняем настройки, возвращаемся в главное меню Vault → Keychain → ED25519-00 → 📤 → Copy Public Key
Дальше с десктопа:
Возвращаемся в Vault → Hosts, тапаем на созданный сервер, оказываемся в командной строке, вуаля
Осталось установить Claude Code:
Дальше пишем
Из комментов (спасибо @nobilix):
Вот, теперь можно не вылезать из CC даже в туалете
@ai_grably
Частый вопрос в ИИ чатиках – как работать с ИИ агентом с телефона. Единственный стабильно рабочий совет, который я видел – ставить Claude Code на VPS и подключаться через termius.
Ниже инструкция:
1️⃣ Покупаем VPS. Топ: Hetzner, DigitalOcean. Дешман: RackNerd. В РФ – хз, посоветуйте в комментах
2️⃣ Настраиваем его с sudo доступом без пароля – чтобы агент мог делать все. VPS – по сути сэндбокс
Если вы не опытный пользователь linux, то просто открываем Claude Code локально и вставляем этот промпт для базовой настройки:
Помоги мне настроить VPS, чтобы запускать кодингового агента – проведи меня за ручку по всем важным этапам, а там где можешь выполнять команды самостоятельно (в т.ч. через SSH), делай это (но гранулярно, без огромных скриптов)
Требования:
Базовая настройка:
- Новый пользователь agent с sudo без пароля, чтобы агент мог сам запускать sudo-команды без интерактивного режима
- Доступ по ssh-ключу к новому пользователю agent (заранее сгенерируй ssh-ключи локально)
- Доступ к root-пользователю должен быть закрыт. Доступ по паролю – тоже
- Файерволл и fail2ban
Дополнительные настройки:
- Адекватная настройка bash history
- Swap 2GB
- Caddy
- uv для python и bun для javascript – через install.sh скрипты (найди в интернете)
- Docker + Compose v2 (добавить agent в группу docker)
ВАЖНО:
- Во время работы ты не должен получать доступ к секретам (пароль VPS, приватный ssh ключ, etc)
- Если что-то требует ввода секретных данных, то проси меня делать вручную
- В остальных случаях старайся использовать non-interactive режим, чтобы я участвовал в процессе минимально
- Задавай уточняющие вопросы, если есть что-то, что не прописано явно
3️⃣ Скачиваем и подключаем Termius на телефон
Тут все просто – добавляем ip, пароль оставляем пустым, на плашку AI Agent можно забить. Единственная сложность – нужно сразу создать ssh ключи и прокинуть публичный на VPS
Credentials → SSH.id, Key, Certificate, FIDO2 → Generate key → ✔️
Почему-то скопировать публичный ключ прям отсюда нельзя. Поэтому сохраняем настройки, возвращаемся в главное меню Vault → Keychain → ED25519-00 → 📤 → Copy Public Key
Дальше с десктопа:
ssh agent "printf '%s\n' 'ВСТАВЛЯЕМ СЮДА КЛЮЧ' >> ~/.ssh/authorized_keys"
Возвращаемся в Vault → Hosts, тапаем на созданный сервер, оказываемся в командной строке, вуаля
Осталось установить Claude Code:
curl -fsSL https://claude.ai/install.sh | bash
Дальше пишем
claude и получаем красоту на скрине выше.Из комментов (спасибо @nobilix):
1) без tmux никуда - соединение рвется, а с tmux - просто супер
2) в Termius важно включить галочку "Use Mosh" - будет моментальный отклик на нажатие клавиш
3) в Termius есть встроенный SFTP - оч удобно по файлам бегать и читать (использует тот же конфиг)
4) сменить дефолтный порт с 22 на другой (безопасность)
5) можно настроить пуш уведомления через хуки CC
Вот, теперь можно не вылезать из CC даже в туалете
@ai_grably
11🔥33👍19❤12🤝3
Кодинг-агент в телефоне (ч.2)
В прошлом посте расписал дефолтный подход с termius. Но консольный UX на тачскрине – достаточно сомнительный. Так что у меня давно чесались руки затестить еще одну идею, которую еще нигде не видел. И вот вчера руки наконец дошли
В чем идея:
1. Есть очень хороший кодинговый агент OpenCode. Пожалуй, ближайший к CC по плотности фич, а по качеству реализации, пожалуй, даже лучше
2. В отличие от остальных агентов, он написан в классическом клиент-серверном подходе – отдельно бэк, отдельно фронт
3. И у него есть два фронта – уже привычный нам консольный текстовый UI и веб версия
Короче, вы уже догадались – можно сервить на VPS сразу веб версию и подключаться к ней с любого устройства, где есть браузер (см. скрин выше)
Дальше – пошаговый гайд + подводные камни:
1️⃣ Берем инструкцию из предыдущего поста и настраиваем себе VPS с нуля – у агента будет полный доступ к нему
2️⃣ Ставим opencode. В любом агенте на локальном устройстве пишем:
Опционально: просим настроить в caddy Oauth через GitHub вместо багованного Basic Auth опенкода
3️⃣ Подключаем подписку
Недавно OpenAI сделали нативную интеграцию с OpenCode и обычная ChatGPT подписка за 20$ дает жирные лимиты на топовую gpt-5.2
1. Открываем только что задеплоенный opencode
2. Пишем
3. В открывшемся окне – Connect Provider справа вверху
4. Переходим по ссылке в лк OpenAI и даем доступ
❗️Тут проблема – флоу OpenAI редиректит на
Решение: перед попыткой входом временно пробрасываем порты в отдельном терминале
4️⃣ Создаем WebApp на смартфоне
Открываем адрес нашего OpenCode в Safary →
Кстати, так же можно создать WebApp и на десктопе, чтобы это было как отдельное приложение, а не одна из сотен вкладок в браузере (скрин в комментах)
———
Готово, у вас есть агент с полноценным UI, который доступен с любого устройства и поддерживает почти все современные фичи – CLAUDE.md/AGENT.md, MCP, LSP, skills, subagents
Бонус: теперь вы знаете как поднять такое для нетехнических сотрудников.
Ваш, @ai_grably
В прошлом посте расписал дефолтный подход с termius. Но консольный UX на тачскрине – достаточно сомнительный. Так что у меня давно чесались руки затестить еще одну идею, которую еще нигде не видел. И вот вчера руки наконец дошли
В чем идея:
1. Есть очень хороший кодинговый агент OpenCode. Пожалуй, ближайший к CC по плотности фич, а по качеству реализации, пожалуй, даже лучше
2. В отличие от остальных агентов, он написан в классическом клиент-серверном подходе – отдельно бэк, отдельно фронт
3. И у него есть два фронта – уже привычный нам консольный текстовый UI и веб версия
Короче, вы уже догадались – можно сервить на VPS сразу веб версию и подключаться к ней с любого устройства, где есть браузер (см. скрин выше)
Дальше – пошаговый гайд + подводные камни:
1️⃣ Берем инструкцию из предыдущего поста и настраиваем себе VPS с нуля – у агента будет полный доступ к нему
2️⃣ Ставим opencode. В любом агенте на локальном устройстве пишем:
Настрой мне opencode web на удаленной машине (подключаться через ssh agent):
1. Изучи документацию opencode
2. Установи opencode
3. Настрой caddy (с моим доменом или просто http – обсуди со мной оба варианта)
4. Настрой запуск в бэкграунде (tmux, docker, pm2, systemd – помоги мне выбрать)
5. Создай папку ~/projects
- Сначала вместе сформулируем план, а после моего аппрува пойдешь выполнять (или говорить мне, что выполнить, если нужен интерактивный ввод).
- Выполняй команды гранулярно (двигаемся step-by-step)
- Обязательно настрой доступ к OpenCode по паролю
- Не читай и не запрашивай пароли – они не должны оказаться у тебя в контексте
Опционально: просим настроить в caddy Oauth через GitHub вместо багованного Basic Auth опенкода
3️⃣ Подключаем подписку
Недавно OpenAI сделали нативную интеграцию с OpenCode и обычная ChatGPT подписка за 20$ дает жирные лимиты на топовую gpt-5.2
1. Открываем только что задеплоенный opencode
2. Пишем
/model в чате3. В открывшемся окне – Connect Provider справа вверху
4. Переходим по ссылке в лк OpenAI и даем доступ
❗️Тут проблема – флоу OpenAI редиректит на
http://localhost:1455, OpenCode ждет ответ не локально, а на VPSРешение: перед попыткой входом временно пробрасываем порты в отдельном терминале
ssh -L 1455:localhost:1455 agent -N
4️⃣ Создаем WebApp на смартфоне
Открываем адрес нашего OpenCode в Safary →
··· меню → share → добавить на домашний экран (скрины в комментах)Кстати, так же можно создать WebApp и на десктопе, чтобы это было как отдельное приложение, а не одна из сотен вкладок в браузере (скрин в комментах)
———
Готово, у вас есть агент с полноценным UI, который доступен с любого устройства и поддерживает почти все современные фичи – CLAUDE.md/AGENT.md, MCP, LSP, skills, subagents
Бонус: теперь вы знаете как поднять такое для нетехнических сотрудников.
Ваш, @ai_grably
❤22👍13🔥10
Надиктовал промпт в CLI агенте – а он схлопнулся в [Pasted text +24 lines].
Запускаешь, а там артефакты от диктовки → в итоге агент 5 минут делает не то, что нужно
Узнали?
Не понимаю, зачем это сделали дефолтным поведением.
Короче, вот как пофиксить этот бред:
OpenCode
Codex CLI
Не лечится :(
Claude Code
Официальной настройки пока нет. Workaround: Ctrl+G перед отправкой — откроет prompt в редакторе, там видно весь текст.
Либо отправка, сразу ESC чтобы остановить, и еще раз ESC, чтобы сделать undo и вернуться к редактированию 🥴
Следить за issue: github.com/anthropics/claude-code/issues/3412
———
Заботимся о своем Developer Experience
@ai_grably
Запускаешь, а там артефакты от диктовки → в итоге агент 5 минут делает не то, что нужно
Узнали?
Не понимаю, зачем это сделали дефолтным поведением.
Короче, вот как пофиксить этот бред:
OpenCode
~/.config/opencode/opencode.json{
"experimental": {
"disable_paste_summary": true
}
}Codex CLI
Не лечится :(
Claude Code
Официальной настройки пока нет. Workaround: Ctrl+G перед отправкой — откроет prompt в редакторе, там видно весь текст.
Либо отправка, сразу ESC чтобы остановить, и еще раз ESC, чтобы сделать undo и вернуться к редактированию 🥴
Следить за issue: github.com/anthropics/claude-code/issues/3412
———
Заботимся о своем Developer Experience
@ai_grably
3👍35🤝2