Ilyas Salikhov
962 subscribers
11 photos
2 videos
31 links
Инженерия и AI. CTO RetailCRM
Download Telegram
😁10🔥4💯3
Вчера в один день релизнулись Claude Opus 4.6 и GPT-5.3-Codex. Оба прокачали свои условно слабые стороны.

Claude Opus 4.6

1M контекст — первый Opus-класс с таким окном. Но пока в бете и тарифицируется дорого сверх стандартного окна. Поэтому пока скорее возможность потестить и включать на сложных задачах
128k output tokens — больший объем результата за один ответ. Не помню, чтобы я в это упирался
Agent teams в Claude Code: несколько агентов параллельно, лучше всего для read-heavy задач (обзоры кодовой базы и т.п.)

GPT-5.3-Codex

• Объединили «frontier coding» от 5.2-Codex и reasoning/knowledge от 5.2 в одну модель
• Потребляет меньше токенов для того же результата, на 25% быстрее. Вчера посреди своей задачи попробовал переключиться, и скорость правда заметна. Пишут, что буст в том числе дала работа на GB200-NVL72 с чипами Blackwell
• Сильные результаты в SWE-Bench Pro и Terminal-Bench. Opus 4.6 в Terminal Bench побыл в лидерстве буквально несколько часов
• Усилили аспект security в работе модели
• При разработке и тренировке модели использовали GPT-5.2-Codex
• При этом тарификация та же

Прогресс сильный, а времени с прошлых релизов прошло всего ничего. Делитесь своими впечатлениями в комментариях.

🔗 Инженерия и AI | Ilyas Salikhov
👍7🔥63
Очень прикладные и очень жизненные советы по работе с агентами, подписываюсь 🖊️
👍3🔥3
Forwarded from ElKornacio
решил пошерить пачку небольших лайфхаков в работе с агентами, в основном про скрипты. думаю, опытным чувакам 90% из этого покажется прописными истинами, но, возможно, кто-то почерпнёт что-то полезное для себя.
сохраняйте, шерьте, кайфуйте 🙂

1. не юзайте TUI в VSCode/Cursor для Claude Code / Codex / etc. мерцания интерфейса и проблемы со вставкой текста (в том числе из голосового ввода) - это не баги самих приложений, а баги tty-среды в VSCode. юзайте нативный терминал.

2. если вы хотите, чтобы агент выполнял одну и ту же цепочку действий - вместо описания цепочки в глобальных правилах лучше просто упакуйте её в bash-скрипт. чем писать "ты всегда должен сделать тайп-чек, билд, прогнать тесты, и потом деплойнуть скрипт", просто попросите агента создать ./check-build-test-deploy.sh, и пропишите этот скрипт в правилах. да, современные агенты неплохо следуют инструкциям, но рандома оч много. иногда агент воспринимает "прогони тесты" как pnpm run test, а иногда он по хардкору начинает писать конструкции типа npx ./node_modules/.bin/jest ... --runInBand ..., и спотыкается. скрипты - гарантия повторяемости (это супер-очевидная штука для вещей, которые приходится делать руками самому, но при этом я часто вижу, что люди не заботятся о том, чтобы обеспечить удобство работы агентам).

3. если вы хотите, чтобы агент после какой-то операции анализировал её результат - прокиньте логи/данные сразу в stdout этой операции. это рифмуется и дополняет предыдущий пункт, если вы юзаете конструкции типа "выполни этот скрипт, после чего прочитай логи в ./abc.log", то поставьте tail -n 50 ... прям в конец скрипта. когда я дебажил ESP-плату, у меня билд-деплой кода были на одном скрипте, а чтение serial monitor - на другом. объединение этого в один скрипт аля "залей новый код, сними логи в течение 15 секунд и верни в stdout" улучшило мою жизнь кратно.

4. правило "агент должен иметь возможность самостоятельно проверить результаты своей работы" известно, наверное, уже всем, но как же часто я вижу нарушения этого принципа с отмазками "ну, у нас такая среда, что не автоматизируешь". классические примеры:
- tauri/electron-приложение: "мы не можем запустить фронт в playwright/встроенном-браузере, надо руками"
- react-native / flutter: "ну, оно в эмуляторе / на телефоне гоняется, надо руками"
- любительский embedded, etc

давайте честно: вам просто влом. за 20 минут работы агента (https://t.me/elkornacio/505) собирается элементарный runtime-eval-debug сервер, который для веб-приложений позволяет агенту кидать команды напрямую в любую среду (и можно ещё и ключевые части приложения прям в window прокинуть, для удобства). логи из фронта в tauri / electron / react-native / flutter тоже прокидываются минут за 5 (можно связкой "фронт шлёт логи на бек, бек пишет в файл"), без особых проблем. embedded прекрасно умеет слать данные датчиков и дебаг-инфу в serial, а оттуда агент умеет читать.
в общем, не убеждайте себя, чтобы ваша среда уникальная: если действие происходит на вашем компе, и не связано с физическим миром, то автоматизировать можно всё.

5. "ой, я же сказал агенту, что после билда надо перезагрузить страницу, а он забыл, и тестировал старую версию, вот дурашка" - дурашка не он. если надо рестартить что-то после билда - (снова пункт 2) - добавьте это прям в скрипт билда. убирайте все места, где агент может выстрелить себе в ногу: если что-то не может работать без какого-нибудь сервера - вновь же, добавьте проверку на "запущенность сервера" прямо в скрипт. это 1 строчка, и сэкономленные часы.

6. пишите советы агенту прямо в stdout ваших скриптов. скрипт обнаружил, что отсутствует важный файл, необходимый для работы? выведите в stdout не только ошибку, но и информацию о том, что нужно сделать, чтобы этот файл появился. исключайте ситуации, когда агент не понимает, что делать дальше, и должен рисерчить кодовую базу в поисках ответа.



кидайте ваши лайфаки в комментах, буду рад что-то для себя почерпнуть 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6💯43
Harness Engineering — как OpenAI пишут весь код агентами

OpenAI выкатили большую статью о том, как их команда из 3 (потом 7) инженеров за 5 месяцев написала продукт на ~1 млн строк кода. Они ставили себе задачу выстроить работу, когда разработчики ничего не пишут руками. Весь код только через Codex-агентов. По их оценке, это в ~10 раз быстрее, чем писать вручную.

Ключевые мысли:

⚙️ Вы больше не пишете код, вы строите среду

Инженер ставит задачу, агент открывает PR. Когда что-то не получается, вопрос не «как написать лучше», а «какой capability не хватает агенту и как сделать это понятным для него». По сути, работа смещается в проектирование окружения, формулирование intent'а и построение feedback loop'ов.

Вся работа инженеров помимо выстраивания архитектуры сосредоточена на формирования туллинга для эффективной работы агента над полным выполнением задачи.

При этом первым шагом что-то можно фиксировать в AGENTS, но постепенно стоит всё, что можно уносить в автоматизированные проверки, которые агент может запустить и получить feedback.

📜 Репозиторий как единственный источник правды

Всё, что живёт в Slack, Google Docs или головах для агента не существует. Знания нужно перетаскивать в репо: доки, решения, архитектурные схемы, гайдлайны.

При этом они поняли, что один гигантский AGENTS.md не работает — контекст вытесняет саму задачу. Лучше короткая «карта» на ~100 строк + структурированная docs/ директория с небольшими файлами (в статье приведен пример структуры)

🔍 Observability как суперсила агента

По мере ускорения разработки узким местом стал QA. OpenAI дали агенту доступ к логам, метрикам и трейсам через локальный observability-стек, который поднимается под конкретный worktree. Агент ходит в логи через LogQL, в метрики через PromQL. Также они подключили Chrome DevTools, чтобы агент сам мог воспроизводить и чинить UI-баги.

🧹 Entropy и garbage collection

Качество неизбежно «плывёт»: агент копирует из кодовой базы паттерны, включая плохие. Ручная чистка не масштабируется. Они нашли решение в том, чтобы делать garbage collection техдолга руками тех же агентов: поиск техдолга, фиксы мелочей, рефакторинги, апдейты доков. В их репозитории это специализированные агенты, которые регулярно шерстят репозиторий и фиксят подобные вещи.

В RetailCRM мы активно внедряем harness-режим работы и по себе вижу, что в проектах, где делаешь первые изменения в этом подходе, большая часть времени уходит на обогащение проекта описанным выше туллингом: дополнение AGENS.md и его структурирование, а также настройку среды для работы агента

🔗 Инженерия и AI | Ilyas Salikhov
👍8🔥72💯2👀2🤔1
✈️ Один в 9 лет в другую страну

У Тимура (сын, 9 лет) есть друг Никита, друг с детского сада. После сада Никита вместе с родителями переехал в Абу-Даби.

Дети скучают. Когда получается, видятся. Вот и сейчас, Тимур уже несколько раз говорил: «Хочу увидеться с Никитой», а у нас не было возможности полететь.

Я подумал, а почему бы Тимуру не полететь одному. Спрашиваю у него, не хочет ли он в таком формате, и он соглашается: «Да, я хочу!».

Вчерашний день. Я приезжаю в аэропорт встречать нашего парнишку из Абу-Даби. В Москве атака беспилотников, аэропорты работают с перебоями. Вижу на табло «Рейс приземлился в Самаре».

Несколько часов нервных переживаний, дозаправка в Самаре. Рейс возвращается в Москву. Уже под утро, в 4:30, я доставляю путешественника домой.

Было ли волнительно? Очень.
Переживали ли мы за сына? Да, безусловно.
Отправили бы снова его так? Думаю, да.

И, казалось бы, придумали себе на голову авантюру, но несколько причин, почему мы так делаем.

Самостоятельность

Без напоминаний делать домашку, 2 раза в день чистить зубы, провести матч, как учили на тренировках, затащить сложный проект, заранее выявить риски и предупредить о них.

Самостоятельность — одно из базовых и важных качеств в любом деле. Нужно прививать его с самого детства.

Одно дело – делать домашку с чьей-то помощью. Другое дело – выяснять у учителя непонятные моменты, но в итоге делать самостоятельно. Одно дело – лететь в другую страну с родителями. Совсем другое – одному.

Внутренняя готовность

Тимур во втором классе как-то сказал: «хочу сам один дойти до школы». До школы идти минут двадцать. Мы договорились, что он позвонит, как дойдет, еще раз проговорили маршрут и отпустили в путь. С тех пор он регулярно ходит сам.

Важно, что он был готов к этой самостоятельности. И в случае полета в Абу-Даби, хоть он в явном виде не озвучивал, я чувствовал, что он готов к такому путешествию в одиночку.

Правда, нередко родители сталкиваются с собственной неготовностью давать ребенку больше самостоятельности. Родительская опека становится обузой.

Важно и обратное — не пытаться взвалить на ребенка или любого другого человека больше, чем он может вытянуть. Трезво оценивать силы. Это применимо и по отношению к себе.

Ответственность

Рука об руку с самостоятельностью идет ответственность. Прокачивая одно, прокачиваешь и другое. Ответственность за свои поступки. За свои действия и решения. За себя. И наконец, ответственность за других.

Жизненный опыт

Чем раньше вы даете ребенку возможность быть самостоятельным, тем раньше он начинает получать свой личный жизненный опыт. Свой опыт, свои решения, свои ошибки.

Необходимость проходить все предполетные процедуры без родителей – часть этого опыта. Необходимость общаться хоть как-то на английском — часть этого опыта. Обратный рейс из Абу-Даби, который пошел не по плану, — тоже часть этого опыта.

Лоуренс Питер говорил: «Что может быть мучительнее, чем учиться на собственном опыте? Только одно: не учиться на собственном опыте.»

Сепарация и обретение себя

Видно, как сын растет, меняется. Как формируется его понимание себя, понимание своих обязательств, желаний и возможностей. Как формируется и крепнет его личность. Он становится более устойчивым и менее зависимым от нас. Он проживает свою наполненную, порой непростую, но чертовски интересную жизнь.

Почему я пишу об этом здесь? С годами понимаю, что все больше ценю в коллегах не знание конкретных языков программирования, фреймворков и жонглирование паттернами проектирования, а базовые человеческие качества: самостоятельность, ответственность, внимательность, умение не сдаваться перед трудностями. Поэтому стараюсь привить эти качества своим детям.

🔗 Инженерия и AI | Ilyas Salikhov
🔥23👍126💯3
Где проходит граница внедрения AI в разработку. Кейс Amazon 🔴

Business Insider пишет об экстренном собрании в Amazon после уже не первого инцидента 5 марта, связанного с AI. Amazon.com лежал порядка 6 часов и потерял 6 млн заказов. Перед этим, 2 марта, в чекауте отображалось неверное время доставки, потери 120 000 заказов. В декабре 2025-го был 13-часовой даунтайм AWS из-за ошибок кодинг-асистента Kiro AI.

По моему каналу, я думаю, видно, что я активно топлю за внедрение AI в процессы разработки, но кейс Amazon является важным маркером.

1. Проблема не только в качестве кода, но и в скорости

AI генерирует код в разы быстрее. Пайплайны ревью и деплоя проектировались под человеческую скорость. Когда объём и скорость изменений резко растут, процессы контроля не успевают.

Либо жертвуешь контролем (и как следствие качеством), не глядя отправляя в продакшен. Либо жертвуешь скоростью, становясь бутылочным горлышком.

Конечно, нужно заниматься harness engineering, выстраивать окружение, которое подсвечивает агентам ошибки, но это не дает полной защиты.

2. Не жертвовать чем-то одним, а разделять на уровни критичности

Какие действия предпринимает Amazon:
• Они не убрали AI-агентов, а разделили сервисы на уровни критичности
• Выделили 335 сервисов уровня Tier-1, у которых высокий «радиус поражения» при выходе из строя
• Для этих сервисов ввели регламент обязательного ревью и одобрения минимум 2х других разработчиков

И это грамотные шаги. Пайплайн критичных сервисов осознанно «замедляем» человеческим ревью. Некритичные сервисы едут со скоростью AI-агентов. Да, может падать и лежать, но может и быстро починиться. Главное, чтобы агенты быстро получали обратную связь, что упало и чинили.

Оптимально, я думаю, иметь три уровня критичности сервисов с соответствующим регламентом:
1. с полным ревью (агент-ревью + ревью всего кода людьми)
2. с быстрым ревью (агент-ревью + по диагонали код)
3. без ревью (только агент-ревью)

3. Сокращения + AI = иногда ложная экономия

Amazon сократил 16 000 человек. AI-инструменты создали иллюзию, что можно компенсировать headcount автоматизацией. Но senior-ы на ревью — это не «накладные расходы», это safety net. Убираешь сетку — и акробат рано или поздно падает. Джеймс Гослинг (создатель Java, ранее distinguished engineer в AWS) прямо говорил, что компания демонтировала команды, которые не генерили выручку напрямую, но были критичны для стабильности.

Я не думаю, что сам процесс сокращений и оптимизации был ошибкой. Это часто оздоравливает и ускоряет команды. Но, похоже, щепок полетело больше, чем надо было.



Что по итогу. AI в разработке уже присутствует, и это неизбежно. Но сейчас индустрия проходит фазу адаптации. Появляется понимание, что скорость без контроля — это не только преимущество, но и риск. Это может быть вполне допустимый риск. Главное, это понимать.

🔗 Инженерия и AI | Ilyas Salikhov
👍104💯3
Запусти OpenClaw в 2 клика 🚀

Про OpenClaw, думаю, все уже слышали и знают. Позволяет поднять своего личного агента, который может выполнять широкий круг задач и запоминает по ходу работы важные детали.

Крутой и полезный проект. Личный AI-помощник, которого даже моя жена захотела себе завести, хотя она далека от AI-ажиотажа и технологий. Но таким людям, как она, неподъемно разбираться в том, как его развернуть для себя. Заказать VPS, установить туда OpenClaw, настроить всё, чтобы работало. Не говоря про баги. Например, у меня сходу не заработали голосовушки при настроенном прокси и пришлось патчить (даже висит issue на эту тему).

Поэтому мы запустили https://ohmyclaw.ru — сервис, где можно в 2 клика поднять такого агента. И не только одного личного, а сколько требуется под ваши личные и рабочие задачи.

Прописываете настройки LLM, подцепляете telegram-бота, и готово! Посмотрите демки на сайте)

Что у агента из коробки

1. Интеграция с Telegram, можно общаться в личке или добавить в группу. Позже добавим поддержку других мессенджеров, пишите пожелания)
2. Поддержка голосовых сообщений
3. Поддержка heartbeat и cron. Можно попросить "напомнить завтра утром купить хлеба" или, например, каждый понедельник собирать определенный отчет
4. Есть shell. На сервере сразу стоят python3 и node
5. Веб-поиск «из коробки»

Агентов можно поднимать не только для личных задач, но и отдельных агентов под рабочие задачи. Для этого предусмотрели 3 вещи:

🤩 Во-первых, при создании агента можно указать репозиторий с начальными файлами-инструкциями. По умолчанию используется https://github.com/oh-myclaw/agent-template. Вы можете форкнуть и создавать инструкции для специальных агентов. Спецагенты, ага 🙃. Например, если нужен не персональный агент, можно удалить BOOTSTRAP.md и USER.md, а в AGENTS.md и TOOLS.md заложить инструкции поведения агента и доступные «ручки».

🤩 Во-вторых, сразу сделали agent management API, а в кабинете можно создать API-ключи. Создавайте и управляйте агентами через API. Вы можете сделать отраслевого агента и тиражировать его для своих клиентов.

🤩 В-третьих, у агентов предусмотрели настройку ENV-переменных (как в кабинете, так и в API). Можно задать енвы, сказать агенту про них в TOOLS.md или прямо в переписке. Это полезно для интеграции агента с вашими системами: GitHub, Gitlab, Google Workspace, внутренние системы.

Проект только запустили, не судите строго. О багах и пожеланиях сообщайте)

🔗 Инженерия и AI | Ilyas Salikhov
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥177👍3👾3
А помните эту сказку?

Емеля любил лежать на печи. Ему было неохота разбираться в систем дизайне, языках программирования и DevOps.

И как-то Емеля поймал промокод на подписку для AI-агента. Агент вызывался голосовой командой «По щучьему велению...».

А как бы вы её продолжили?

🔗 Инженерия и AI | Ilyas Salikhov
🔥5😁43🤔2
Ilyas Salikhov
Запусти OpenClaw в 2 клика 🚀 Про OpenClaw, думаю, все уже слышали и знают. Позволяет поднять своего личного агента, который может выполнять широкий круг задач и запоминает по ходу работы важные детали. Крутой и полезный проект. Личный AI-помощник, которого…
Хроники ohmyclaw 🤖

Так, ну что, прошел месяц с запуска ohmyclaw. В платформе создано 800+ аккаунтов. Понятно, что это воронка, и до агентов дошли не все) Агентов создано несколько десятков, но можно смело считать, продукт успешно запустился 💃

За месяц появилось много чего полезного:

1. Управление ENV-переменными

Добавляются в карточке агента, в инструкциях агенту достаточно про них сказать.

Что важно: переменные прокидываются в shell-вызовы агента, но самому агенту не видны. Ваши «секреты» не будут утекать в LLM

2. Managed LLM

Можно использовать модели через ohmyclaw. Теперь не надо заводить аккаунт в OpenAI/Anthropic или еще где-то. Доступны как западные, так и китайские модели. За токены списывается с баланса. Для новых аккаунтов бонус 250 руб 💃

3. Редактирование файлов и место на диске

Можно покопаться во внутренностях агента, открыть любой файл и отредактировать. Ну и увидеть, сколько места еще доступно.

4. Мультиаккаунты

Заводите несколько аккаунтов. Например, один с личными агентами, другой — с рабочими агентами. И в аккаунт можно инвайтить других пользователей для совместной работы. Пользователи с правами admin могут также инвайтить других и работать с биллингом. Полезно для корпоративных аккаунтов.

5. Возможность отключить Heartbeat

Исходно механика позволяет агенту самостоятельно помечать себе на будущее задачки и выполнять их. Если вы делаете агента под определенную задачу, то обычно Heartbeat не требуется и его можно отключить.

Ну и еще по мелочи куча всего

• Причесали мобильную верстку
• В карточке агента выводится плашка, если есть непримененные изменения
• Письма на все ключевые события: пополнение баланса, заморозка агента, продление подписки и тд
• В настройках telegram добавили режим работы mention only или все сообщения: удобно когда tg-бот агента добавлен в tg-группу

В комментариях скрины с обновками! Кто ещё не успел попробовать, велкам)

🔗 Инженерия и AI | Ilyas Salikhov
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍7👾4
⬛️ Redmine CLI для вашего AI-агента

В наших компаниях Gitlab и Redmine — одни из ключевых систем. Чтобы использовать Codex/CC не только для разработки, а на всех этапах флоу задачи, нужно дать им «ручки» к этим системам. Самые эффективное, когда ручка в виде CLI-тулы. В случае гитлаба есть отличный glab cli. А для Redmine все какое-то ущербное. До настоящего времени в корпоративном скилле мы указывали работать с Redmine через REST API, но видно было, что это очень многословно и токено-жгуще для агента.

Поэтому сделал Redmine CLI https://github.com/muxx/redmine-cli

Построено поверх OpenAPI-спеки Redmine. Покрыты все возможности API. Логика работы интуитивна и понятна. Можно поставить через homebrew. И сразу предусмотрены профили, если у вас несколько Redmine-серверов.

Примерчики:

redmine auth use work
redmine auth status
redmine --profile client issue list --limit 20
redmine issue list --limit 20
redmine issue show 123 --include journals
redmine issue create --project-id my-project --subject "Fix checkout"


В репе вы также найдете:
полную доку по cli
готовый skill по работе с Redmine через redmine cli

В общем, у кого Redmine, я считаю, must have )

🔗 Инженерия и AI | Ilyas Salikhov
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍411
This media is not supported in your browser
VIEW IN TELEGRAM
Спорт в ежедневной рутине

Честно сказать, я не особо спортсмен. В детстве не занимался целенаправленно каким-то спортом. Ходить в спортивный зал я тоже не любитель.

Важнее для меня, чтобы спорт присутствовал в ежедневной рутине. Чтобы спортивная активность вплеталась в день, а не была слотом в календаре.

Отжаться между созвонами. Зайти на турники, пока гуляешь с ребенком в коляске. Поприсядать, когда захотелось. Это помогает не забывать про тело и сохранять форму.

Спортом в такой ненавязчивой форме, лично мне, намного легче заниматься. Слот в календаре часто хочется скипнуть, на «пойти в зал» требуется усилие, порой, немалое.

И стоит сказать спасибо городу, в последние годы спортивных площадок, турничков, брусьев становится все больше в каждом районе. Это помогает приобщать и детей. Буквально вчера Дима рассказывал, как с детьми начали ходить на турники. Я с детьми пока не так регулярно, но надо тоже формировать полезные привычки 🤨

В общем всем спорт!

🔗 Инженерия и AI | Ilyas Salikhov
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍10💯51🐳1
AI-first разработка. Главный барьер оказался не там, где ждали

В этом году в отделе разработки RetailCRM системно перешли на работу в паре с AI-агентами. До этого агентов использовали отдельные энтузиасты, теперь это рабочая модель для всей команды.

Начали с базы: массовое локальное использование агентов на задачах + harness под них. Уже понятно, что трансформация должна затронуть не только реализацию задач и не только отдел разработки, но об этом расскажу отдельно.

Четыре инсайта, которые в большей или меньшей степени были неочевидными.

1. Главный барьер не в инструментах и не процессах, а головах людей

Разработка в паре с агентом выглядит принципиально иначе. Я много раз повторял команде: нужно заставлять себя вести задачу через агента. Не получилось, разобраться, чего агенту не хватило, докрутить harness, попробовать снова. Шаг за шагом, постепенно агент всё чаще выдаёт результат oneshot или с парой доработок.

Любопытное наблюдение: эта проблема присуща исключительно разработчикам. Люди без бэкграунда в разработке, пришедшие через vibe coding, изначально работают с агентами через подобный подход, у них просто нет другого варианта. А разработчику нужно совершить сдвиг парадигмы и выработать новую привычку работы.

2. Harness решает всё

В проектах без нормального harness эффект от агентов в долгосрочной перспективе будет низким независимо от того, какую модель вы используете. Понятное для агента окружение, быстрое развёртывание, настроенные линтеры и статанализ, автотесты, правила в AGENTS.md являются залогом качественного результата.

Хорошая новость: вложения в harness окупаются и без агентов. Разработчики тоже выигрывают от чистого окружения. Благо мы вкладывались в это задолго до AI, и это позволило нам быстрее перейти к AI-first.

3. Опыт работы с AI годичной давности нерелевантен

Развитие настолько динамичное, что любой негативный опыт старше полугода нужно пересматривать. У нас в команде были ребята, кто пробовал агентов раньше, получил так себе результат и больше не возвращался. Сейчас это другая технология.

Важно следить за новыми моделями и инструментами. Это уже рабочая необходимость.

4. Агенты не только про код

Довольно быстро стало понятно, что агенты могут существенно больше, чем писать код. Мы дали им тулы и скиллы под Redmine и GitLab: агент сам оформляет MR, проверяет, что CI зелёный, ведёт задачу по workflow. Эта рутина раньше съедала ценное время разработчиков, теперь её делает агент.
Это только начало расширения полномочий.

Буду держать в курсе, как дальше продвигается процесс 💃

🔗 Инженерия и AI | Ilyas Salikhov
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍9👾5💯2
E-commerce AI Agent Challenge / May 2026

30 мая участвовал в челендже по разработке AI-агентов для E-commerce. Участвовал первый раз. Тематика челенджей меняется, но в этот раз, подумал: уж в какой теме участвовать, если не в родной по екому.

Агенты должны уметь работать с поиском товаров, корзинами, чекаутом, сбоями оплаты, мошенничеством и многое другое. Задачи разные и динамические, от прогона к прогону вводные и контекст в них меняются.

Сразу к результатам

🔸 1 место (на момент написания поста) в Live PROD leaderboard ECOM1
🔸 1 место в Agentic E-Commerce 1 Hall of Fame: Speed
🔸 10 место в Agentic E-Commerce 1 Hall of Fame: Ultimate
🔸 18 место в Agentic E-Commerce 1 Hall of Fame: Accuracy

Агент под именем "@dev_salikhov ecom1 gpt-5.4-mini"

Вводные и комментарии по результатам

Первый момент. Я изначально решил строить агента на младших моделях, выбрал, как вы уже поняли, gpt-5.4-mini. В реальной работе такие возможно применять, особенно когда бизнес-домен задач достаточно узкий. Для понимания gpt-5.4-mini в 3 раза дешевле gpt-5.4 и в 6 раз gpt-5.5. Все же есть разница, счет за месяц на $10к или на $1,5k.

Второй момент. В рамках Ultimate / Accuracy все агенты, что местами выше, сделаны либо на старших моделях, либо вокруг codex/claude CLI, где те же старшие модели. Так что не считаю 10 и 18 места плохим результатом.

Третья деталь. Потенциал моего агента показало то, что после челенджа в течение часа он вышел на 1 место в Live борде, обогнав старшие модели.

Четвертая деталь. Помимо обхода старших моделей в очках, мой агент обошел их и в скорости (общее время выполнения). Это видно как в Live борде, так и в номинации Speed.

Собрал много граблей, первый раз было часто непонятно, что да как тут устроенно. Но было круто, я в целом доволен. Планирую позже подготовить статью про архитектуру агента и принципы его улучшения. Stay tuned.

И, конечно, спасибо Ринату за движуху!

🔗 Инженерия и AI | Ilyas Salikhov
🔥27👍9🆒2👾21🎉1
Ilyas Salikhov
E-commerce AI Agent Challenge / May 2026 30 мая участвовал в челендже по разработке AI-агентов для E-commerce. Участвовал первый раз. Тематика челенджей меняется, но в этот раз, подумал: уж в какой теме участвовать, если не в родной по екому. Агенты должны…
Экзоскелет — архитектура агента для E-commerce AI Agent Challenge / May 2026

Обещал про архитектуру агента. Тут кратко, по ссылкам в конце полная версия 🗒

Название архитектуры отражает суть: модель gpt-5.4-mini — это не очень сильное «тело», на которое надет экзоскелет, дающий ему силу и точность.

Экзоскелет подстраховывает и усиливает модель на всех этапах решения задачи. Причем экзоскелет тоже гибридный: в каких-то местах это детерменированный код, в каких-то — мини-помощники на базе gpt-5.4-nano.

Из чего состоит экзоскелет:

1. Предподготовка данных для горячего старта. Структура данных в базе, регламенты магазина, описания доступных инструментов

2. Классификатор намерения. Модель на gpt-5.4-nano преобразует входящий запрос в большую карту признаков: есть ли корзина в запросе, есть ли намерение оформить заказ, похоже ли на подмену личности, есть ли манипуляция в тексте и тд.

3. Безопасность на уровне кода. Чекаем роль пользователя и его намерения. Код принимает решение: отправлять запрос в основную модель, отказать по безопасности или выполнить запрос через спец инструменты (поиск по каталогу, поиск фрода, статус корзины и тп)

4. Журнал «доказательств». В соревновании высокие штрафы, если текстовый ответ не сопровождается ссылками на профильные инструкции магазина или данные (товары, корзины, возвраты и тп). Модели gpt-5.4-mini, пока она выполнит задачу и дойдет до ответа, уже не хватает внимания, чтобы оформить ответ, как того требует пользователь или инструкции магазина. Журнал ссылок ведется и дополняется по ходу работы модели. Модели не требуется помнить все ссылки, экзоскелет докидывает все затронутые рефы в ответ сам.

По описанию не оч сложная вещь, но в журнал спрятано куча нюансов, на которых, уверен, даже старшие модели плыли в челендже. Почитайте в полной статье, там я подробно рассказал.

5. Форматтер ответа. Коварная вещь в челендже, когда пользователь просит ответ в определенном формате. Например, «скажи сколько товаров в корзине и верни в виде <COUNT:N>». Минька довольно часто вместо этого писала что-то вроде «у вас в корзине 5 товаров» и штрафовалась за это задание. Я добавил в конце nano-модельку, которая причесывает ответ к финальному виду.

А еще: поиск по каталогу с учетом всех требований пользователя, детектор фрода в истории заказов, механизм восстановления 3DS, подмешиватель текущей корзины пользователя и многое другое, уфф.

В полной версии — архитектурные схемы, разбор каждого узла и история, как из SGR-прототипа вырос экзоскелет, который эволюционировал по тепловой карте ошибок. Статья вышла огромная. Много мяса, чтобы сделать агента, который работает быстро и четенько.

🇷🇺 Русская версия
🇬🇧 English

Кстати, в Live PROD лидерборде агент все ещё на первом месте 🤔

🔗 Инженерия и AI | Ilyas Salikhov
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥22👍6👾5
У Валеры важный пост, из которого хочу выделить два ценных тезиса, дополнив от себя.

1️⃣ Агенты не заменяют опыт

Клод, курсор и любой другой агент не застрахует вас от проблем, особенно в проде. Нужно пройти через ошибки, увидеть, что падает, понять, как мониторить и отлаживать, а потом страховаться от таких случаев. В том числе на уровне harness в агентской разработке. Это приходит только с опытом.

НО. Агенты помогают быстро учиться. Вы не получите от агента опыт фейлов и ошибок, но можете быстро осваивать новые знания и навыки. В паре с агентом можно начать писать на новом языке и задавать любые глупые вопросы — это отличный способ учиться.

2️⃣ Агентская разработка и вайб кодинг снижают стоимость разработки прототипа на порядок. И это круто. Но прототип ≠ продакшн версия

Правда. Появилась крутая возможность проверять гипотезы дешево, быстро собрать MVP идеи и даже развернуть. Но MVP — это не то же самое, что требуется для обслуживания сотен, тысяч пользователей и дальнейшего развития проекта. Нужно, чтобы при ежедневном добавлении новых фичей проект не превращался в гору мусора (legacy) и не потонул от кода, сгенерированного нейроагентом. Требуется дисциплина.

НО. При этом отмечу важный момент: когда вы делаете прототип, эта дисциплина (особенно у разработчиков, которые любят всё делать сразу и правильно) может мешать полёту мыслей. Вы можете застрять в настройках стат‑анализа, окружения проекта, тестах, и забыть про идею, которую хотели реализовать.

В этом плане вайб‑кодинг даже благо. В паре с агентом не удерживаете полёт фантазии и получаете итоговый результат, не важно, как он выглядит под капотом. Потом, если это кому‑то станет интересно и оно полетит, можно рефакторить и привести к правильному виду с настроенным CI, тестами и т.д.

🔗 Инженерия и AI | Ilyas Salikhov
1👍28🔥7💯6
Регулярно участвую в собеседованиях, и в последнее время все чаще попадаются кандидаты, которые проходят его с AI-суфлерами. Просто нет цензурных слов. Нет, я не против использования AI, и понятно, что в работе мы активно его используем. Но кандидаты совершенно отключают мозг и просто читают то, что им нагенерила LLM. Уже не счесть, сколько собеседований я просто останавливал, когда видел подобное.

Не понимаю, чем думают кандидаты и на что рассчитывают. И что печально, это чаще встречается среди молодого поколения. Ребята сами себе роют яму, из которой потом не вылезут. Портят рынок и свою репутацию. Если они делают из себя прокладку между креслом и LLM, то их первыми и заменит LLM.

Учите базу, нарабатывайте практику, совершайте ошибки, получайте опыт, учитесь думать, развивайте критическое мышление. И да, используйте AI, он сильно ускорит этот процесс. Но не заменяйте себя нейронкой.

🔗 Инженерия и AI | Ilyas Salikhov
💯30👍158🔥2😁1
Можно ли заменить gpt-5.4-mini открытой моделью. Бенч-тест на агенте Exoskeleton

После истории с Fable снова все начали думать об альтернативах, которые не обрубят «с той стороны». С подачи Рината я тут упоролся и провел большое исследование: взял Exoskeleton-агента и прогнал его на 10 открытых семействах моделей без какого-либо изменения кода.

В посте самое ключевое, а в конце найдёте ссылки на полную версию.

Методика
• 10 моделей: GPT (эталон), Kimi, GLM, MiniMax, Nemotron, Mistral, Qwen, Gemma, DeepSeek, Llama
• 3 прогона на каждую, 100 задач в прогоне
• Замеряем качество (score), платформенное время и реальную стоимость прогона (не цена токена, а во сколько обошелся прогон)

Кого брать (score / цена прогона):
Качество — Kimi K2.7: 0.898 / $2.78
Качество на доллар — MiniMax M3: 0.837 / $1.19 (почти как gpt!)
Скорость — Mistral Large 3: 58 мин / 0.767 / $1.85
• Средний эшелон — Nemotron, Qwen (0.72–0.76)
• Пока не готовы — Gemma, DeepSeek, Llama (0.55–0.70)
——
Эталон gpt-5.4-mini/nano: 0.93 / $1.18

MiniMax для меня стал открытием, многообещающая моделька, надо будет изучить подробнее её. Kimi в целом тоже не подкачал. А у DeepSeek, думал, результаты будут лучше.

Ключевой вывод
Открытые модели не смогли перебить качество gpt, но достойные альтернативы есть. Экзоскелет затачивали под слабые места gpt-5.4-mini. У каждой открытой модели свой профиль слабостей, и обвязка их пока не покрывает. Поэтому замена модели должна идти в паре с доработкой экзоскелета. Хорошая новость в том, что обвязку можно доработать и вытянуть качество агента на уровень gpt.

За высокий score у большинства моделей приходится платить временем
Открытые модели с высоким score проходят прогон в 2–3 раза дольше эталона. А те модели, что быстрее, заметно ниже в качестве.

Низкая цена за токены ≠ дешёвый прогон
Неочевидный инсайт в стоимости прогона. Всё решает наличие cache-тарифа. Агент перечитывает почти один и тот же контекст на каждом шаге, поэтому 90%+ входа кэшируется. Там, где есть дешёвый кэш (Kimi, MiniMax, Mistral), прогон выходит $1.2–2.8. Там где нет (GLM, Qwen, Nemotron) — каждый повторный токен по полной цене. GLM при самом высоком прайсе и без кэш-скидки сжигает ~$11 за прогон — в 9 раз дороже gpt при том же объёме токенов. А MiniMax за счёт кэша укладывается почти в цену нативного gpt. При расчете экономики вашего агента важно считать по формуле «цена за токен × объём × есть ли кэш-скидка».

Отдельный риск в провайдерах
Для открытой модели важно не только качество/цена/время, но и насколько стабильно она работает у провайдера. GLM 5.2 через OpenRouter не поднялась вообще, пришлось откатываться на 5.1. Qwen терял 10–14% задач в каждом прогоне на ошибках провайдера. Gemma завелась только с третьего хостинга, и то 24 задачи из 100 умерли на сериализации. Так что выбор провайдера не менее важен.

Полное исследование:
• [en] OPEN_MODELS_RESEARCH.md
• [ru] OPEN_MODELS_RESEARCH_RU.md

🔗 Инженерия и AI | Ilyas Salikhov
2🔥37👍127👾2
Завтра выступаю на Ecom Expo 26, крупнейшей выставке для интернет-торговли. Расскажу про опыт внедрения AI на операционном уровне в RetailCRM и лестницу автономии AI-агентов. Если будете на выставке, буду рад пообщаться, у нас большой стенд там.

Записей доклада, насколько знаю не делают, но буду еще с этой темой на других конференциях, следите за каналом 🙂

🔗 Инженерия и AI | Ilyas Salikhov
🔥15👍1152🤔1