ИИ пашет, Саша одобряет
541 subscribers
46 photos
1 video
14 links
Занимаюсь разработкой с Ai и рассказываю об опыте и полезных инструментах.

Личка: @defendend
Download Telegram
Ну и есть уже подтверждение в виде бенчмарка, новая модель похоже дорогая и тупая 😄
LLM Бенчмарк Anthropic Fable 5 на бизнес-задачах

c максимальным reasoning

Если кратко, то эта новая модель считает себя слишком умной и на задачах, которые требуют точных ответов, иногда начинает нести больше отсебятины, нежели другие frontier модели. Из-за этого у нее такая просадка в Software Engineering задачах. По итогу она заняла вполне себе достойное десятое место.

Правда, если сравнивать стоимость с другими моделями в TOP-10, то можно найти модели подешевле и поумнее для внедрений в бизнес.

Задачи на бенчмарке собраны из тестов и evals, которые мы собрали во время работы над внедрениями LLM в бизнес в корпорациях и стартапах в США и Европе.

Про бенчмарки подробнее написано тут, включая ответы на все те вопросы, которые задавали люди первую пару лет публикации этого бенчмарка. Полная версия бенчмарка за Июнь 2026 - тут.

За LLM бенчмарк теперь отвечает @AigizK, поэтому если интересует какая-то популярная модель (вроде xiaomi/mimo-v2.5-pro, что была под капотом у TOP-20 ECOM1 агента), то это уже обращаться к нему.

Ваш, @llm _under_hood 🤗
🔥4😁1
Можно ли для начала убрать код-ревью из части процесса?

Сейчас заметно, что многие уже не особо внимательно смотрят PR. И тут возникает вопрос: если ревью в каких-то местах стало формальностью, почему бы его там не убрать?

Есть важный нюанс: агенты все еще ошибаются и пишут неидеально. В больших командах есть критичные зоны, которые нельзя ломать вообще.

В таких местах код-ревью, скорее всего, еще ближайший год будет жить. Но его формат будет зависеть от ответственного за конкретный код.

А зачем вообще было нужно код-ревью?

Во-первых, для обучения коллег и шаринга знаний внутри команды.

Во-вторых, чтобы находить то, что автор задачи мог упустить.

Еще ревью помогало следить за качеством кода, потому что исправлять проблемы потом часто было дорого. А многие косяки, пропущенные на ревью, потом уже никто не исправлял.

С агентами ситуация меняется. Мы получаем огромный поток кода, и локально исправить ошибку в нем становится дешевле. Но ревьюить каждый PR людьми или агентами дорого: либо мы тратим много человеко-ресурсов, либо сжигаем N токенов на каждый пулл-реквест. А когда таких PR много, сумма получается заметная.

Кажется, нам нужно разделять правила на nice to have и must have.

Nice to have правила можно сделать менее критичными. Если агент где-то про них забыл, это не должно блокировать весь процесс.

А вот must have правила должны соблюдаться всегда. Их лучше покрывать CI/CD, проверками, тестами и другими автоматическими кубиками.

Какие проблемы при этом остаются?

Даже если агенты пишут продукт или технические части, и с точки зрения бизнеса все выглядит хорошо, риски все равно есть.

Агенты могут терять контекст или забывать важные детали. В некоторых местах они могут делать хрупкие и плохо расширяемые решения, неудачно структурировать код или оформлять его так, что людям потом будет сложно разобраться. Ну и еще агенты очень любят дублировать код.

А зачем людям вообще лезть в код, если его пишут агенты?

Представим огромные сервисы, которыми пользуются миллионы людей. Если модели в какой-то момент станут недоступны или их качество временно просядет, код все равно должен оставаться поддерживаемым. Тогда люди смогут быстро в него зайти, доработать нужные места, и система продолжит жить.

Как можно сохранить чистоту и поддерживаемость кода, но сократить ручное ревью?

Например, агент с настроенными правилами может раз в неделю ревьюить проект, собирать артефакты с проблемами и показывать, где копится технический долг.

Сначала такие прогоны могут быть дороговатыми, но дальше можно проверять только измененные за неделю модули и файлы. Плюс со временем проблем должно становиться меньше, если по результатам аудита подкручивать самих агентов.

В итоге это даст несколько вещей: поиск проблем, статистику по качеству кода и понятную обратную связь для настройки агентов, если они регулярно приносят одни и те же ошибки.

Кажется, будущее ревью может быть не в двух апрувах на каждый PR, а в жестких автоматических проверках для критичных вещей и регулярном аудите качества кода.

А что вы думаете по поводу код-ревью в мире, где большую часть кода пишут агенты?

@defendend_ai_dev
👍6
Forwarded from Junior AI PM
#мнение
Эпитафия разработчикам

Традиционный разработчик старого толка должен исчезнуть. Не инженер. Не человек, который думает архитектурой, данными, рисками и продуктом. А именно разработчик, который до сих пор считает, что его главная ценность - руками писать привычный код привычным способом

ИИ не убивает качество разработки. Он убивает узкие места и оправдания. Уже июнь 2026 года, запомните этот пост:
- Писать тесты и держать coverage - база
- Настроить CI - база
- Знать, что такое quality gates - база
- Думать про архитектуру и защитное программирование - база
- Делать работу, которая раньше занимала спринт, за день-два - база
- Вести пару проектов параллельно - база

Раньше это называли высокой инженерной культурой. Теперь это минимальная гигиена

Странно руками открывать DevTools и тыкать всё самому, если агент может пройти сценарий, снять логи, проверить DOM, найти ошибку и принести гипотезу.
Странно руками писать миграции. Вы же модельки руками не пишете? А что так? Контракт first, схема first, миграция first, тест first - агенту вообще по барабану, ему не лень. Странно руками собирать зависимости, конфиги, workflow, nginx, Dockerfile, pre-commit и линтеры, когда это давно должно генерироваться, проверяться и фикситься автоматически. Это совершенно обычный сетап

Традиционный разработчик говорит: ИИ пишет не так, как я люблю. И что? JavaScript тоже компилируется не в тот ассемблер, который тебе привычен. Ты просто его не видишь. А тут увидел diff и начал защищать не качество, а свой вкус

Код - это побочный продукт требований, контрактов, тестов, ограничений, контекста и обратной связи. Коллаборации людей в общем

Хороший разработчик теперь не тот, кто лично написал каждую строчку. Хороший разработчик тот, кто построил систему, где агент может быстро писать код, тесты ловят ошибки, линтеры держат стиль, CI режет мусор, rollout снижает риск, observability показывает последствия, а архитектура не расползается после третьего промпта

ИИ делает баги - да. Люди тоже делают баги. В моем опыте даже больше. Просто раньше вы называли это разработкой, а теперь внезапно стали эстетами качества

Наша бизнес-логика слишком сложная, ИИ не поймёт - значит вы плохо видимо разбирались если кодовая база меньше 2 млн строк кода вдруг сложная и не проглатываемая агентом с специальными обвязками вроде контекстного движка, кодграфа и внешней памяти фактов

Кто-то скажет. Я не хочу работать с кодом, который не понимаю - значит, пора учиться понимать систему и выстраивать ее, а не каждую строку. В 2026 вопрос уже не внедрять ИИ или нет в разработку. Вопрос: что нужно поменять в себе, команде, процессах, архитектуре и продукте, чтобы ИИ стал нормальной частью разработки

——

Здесь лежит традиционный разработчик. Он ревьюил каждую строку инлайном, спорил с агентом про стиль, боялся больших diff, презирал AI-слоп, презрительно говорил фу вайбкодеры, ломал своими правками чужие тесты и не мог написать документацию за код и любил три недели продумывать архитектуру, но до последнего был верен тому, что его призвание писать чистый код
🔥2
☝🏻☝🏻☝🏻

Как же хорошо сказано, Артём как боженька молвил.

Добавлю еще про смерть героев старой школы. Я обычно улыбчивый и няшный, но читать надгробные записки тоже умею.

Эпитафия сеньорам

Уважаемый сеньор старой школы, который отлично умеел раскладывать архитектуру, проектировать партиционирование базы данных, продумывать проект как от миллиона пользователей перейти на 10 миллионов, знающий, как с Оракла мигрировать на Кассандру.

Раньше ты был звездой. Ты качался до этого 10 лет, и в команде у тебя было звание почти Святого Гавриила.

Но пришла новая школа, новый уклад. Пришли великие агенты и AI. Ты смотришь на это, и тебе кажется, что это порождение нейрослопа для школьников, которые теперь могут писать B2B SaaS за три дня, а твои навыки незыблемы, и тебе эти AI-помогаторы не нужны

Так вот, дорогой друг, у тебя теперь два стула. Выбирай любой.

Стул первый - это продолжать игнорировать AI-агентов. Ты также будешь руками читать архитектурные защиты и поучать разработчиков, как правильно делать архитектуру. Но проблема в том, что теперь они будут приносить тебе таких проектов в 10 раз больше, и руками сидеть с ними ты будешь вечерами и ночами.

Ты раньше был гением, который мог проработать проект длиной в три месяца для команды из пяти человек, затрагивающий изменения в десяти микросервисах. Это у тебя занимало две недели, но результатом потом гордился весь отдел. Проблема в том, что теперь у тебя таких проектов будет семь. И руками вдумчиво сделать это уже не получится, только через овертаймы. А новые ожидания этого не позволят.

Если ты осознанно решишь не обучаться возможностям современных агентов, то за следующий год ты довольно быстро проиграешь войну чувакам-мидлам, которые освоили эти инструменты профессионально. Тебя просто не будет хватать на их всех, и с точки зрения производительности тебя обскочит средний мидл, умеющий в четыре сессии разрабатывать и архитектуру, а еще вести проекты.

И в итоге, какой бы ты ни был умный, в новом мире ты будешь работать на скорости х0,3 и буквально через полгода тебя может заменить человек, которого ты нанимал.

Но есть и второй путь, дружочек. В этой альтернативной реальности ты откладываешь всё и с головой уходишь в claude code, codeх или open code. Понимаешь, как правильно вместе с ними проектировать ту же архитектуру, которую раньше ты делал две недели - за два дня. Понимаешь, как завернуть эти скиллы в AI агента-архитектора, который работает автономно, и к которому твоя команда может приходить с вопросами. Понимаешь, как создать постоянный код-ревью в рамках своей части сервисов, который масштабирует тебя и твои знания в десятки раз.

Да и в целом ты сможешь, заперевшись в темной комнате, обложившись десятью вкладками Claude Code, за неделю дня сделать работу, которую в прошлом мире делала бы команда из пяти человек целый месяц.

И с такими знаниями и умениями ты с уровня Архангела Гавриила превознесешься до архитектора Матрицы.

———
Все совпадения случайны. Не принимайте близко к сердцу

Эпитафия касается не только сеньоров, а спецов на любых уровнях. Мастерство с AI-агентами кратно ускоряет ваши возможности и потенциал, мультиплицирует их.

Если вы не знаете ничего, то вы будете в 10 раз большей слоп машиной. А если у вас есть базис, то этот базис ускоряется в 10 раз.

Так что качайте базу и качайте мастерство AI инструментов.

———
P.P.S: забыл один важный момент. Текущим сеньорам в среднем по 30-40 лет. И в этом возрасте частенько наступает нежелание разбираться в чем-то большом и новом, похожее на то, как миллениалам после инстаграмма было влом понимать фишку Snapchat.

С AI агентами - похожая тема, нужно пересилить себя и поесть грязи первые пару месяцев, мозг должен чуть повернуться.

Буквально, помню как затирал одному руководителю службы (моложе меня) тему про авто-генерацию SQL агентами и получение данных из БД по естественным запросам, а он говорит: "Лёх, я слишком стар для этого дерьма, пусть молодые играются".

Не надо так други, чуть чуть покопать и там внизу золотые горы.
2
☝🏻☝🏻☝🏻

Утром прочитал два поста от ребят и не могу пройти мимо. У обоих про то, что традиционный разработчик и сеньор старой школы — всё. Согласен. Но в обоих постах не хватает одной важной части: что конкретно происходит с навыком, когда сильный человек садится за агентов. И почему слабый, который сел туда же, не выигрывает.

Агент — это множитель. Не замена, не помощник, не «второй разработчик в паре». Множитель. И как у любого множителя, у него есть одно неприятное свойство: он умножает то, что в вас уже есть.

Ноль на агента — всё ещё ноль.

Поэтому ребята без технического бэкграунда, которые первыми побежали клепать стартапы на Cursor и Claude Code / Codex, получили ровно то, что вложили — кучу проектов, которые красиво смотрятся в демо и разваливаются на втором пользователе. Они не сделали ничего плохого. Они просто умножили свой ноль на тысячу и получили большой видимый ноль. Это не вина агентов. Это математика.

А теперь возьмите сильного архитектора. Человека, который десять лет руками раскладывал системы, который чувствует, где будет больно через год, который видит плохой контракт за три секунды. Посадите его за агентов. Дайте ему два месяца честной боли — не «попробовал, не понравилось», а именно боли: переложить свой вкус, свои инварианты, свои проверки, свой способ думать на агента. Научить агента ревьюить так, как ревьюит он. Научить агента бояться того, чего боится он. Научить агента писать тесты, которые он сам бы написал.

На выходе вы получаете не человека, который быстрее печатает. Вы получаете человека, чьи лучшие 5% решений теперь применяются к 100% его кода. И к коду его команды. И к ревью. И к архитектурным защитам. Это не х2 и не х3. Это другой порядок.

Дальше — масштабирование. Ci кубики с ревью агента на команду, делегирование рутины команде через них и агентов-помощников, постоянный код-ревью его уровня по всему его куску системы. Один сильный человек начинает занимать место небольшого отдела — не потому что работает за пятерых, а потому что его экспертиза наконец-то перестала быть бутылочным горлышком.

Главный вопрос: как заставить сильных людей это сделать.

Никак.

Заставить не выйдет. Сеньор, который десять лет был звездой, не пойдёт страдать с инструментом, который пишет «не так, как он любит» — только потому что вы сказали надо. Он умнее вас и аргументы ваши слышал. Угрозы про «тебя заменят» он тоже слышал — десять раз, с приходом каждой новой технологии, и каждый раз не заменили.

Работает другое. Заинтересовать. Показать механику. И главное — зайти через их рутину. Не через рабочий проект, не через переписывание архитектуры, не через «давай вместе попробуем что-то большое». А через то, что они ненавидят делать руками. Миграции. Бойлерплейт. Конфиги CI. Документацию по уже написанному коду. Регрессионные тесты к легаси. Разбор чужих PR.

Там, где сеньору скучно — он легче пускает агента. Там, где он легче пускает агента — он быстрее видит, что агент справляется или начнет дорабатывать, чтобы он справлялся. Там, где он видит, что справляется — он начинает доверять. И вот тогда, через два-три месяца такой ползучей конверсии, к вам приходит уже другой человек. Тот самый сеньор, но теперь умноженный.

Эпитафии — это красиво. Но хоронить живых сеньоров рано. Гораздо интереснее их преобразовать, но для этого нужны Ai-native люди.
💯10🔥7
А потом неожиданно нейронки такие...
😁172
Антропики ночью удалили Fable 5

Как многие уже знают, что из CC полностью удалили две модели семейства Mythos, тут скорее правительство США, это удобная отмазка, чтобы не сказать о том, ребята мы обосрались с моделью.

С новой моделью начало возникать много проблем с тем что за 1 запрос улетал весь лимит 200 баксовой подписки, где-то налажали с токенизатором и тп.

Ну и модель оказалась слабее чем gpt-5.5, поэтому ребятки начали требовать у правительства забанить эту модель для всех в мире, чтобы ее никто не смог использовать.

Поэтому мое мнение, что антропики обосрались и пытаются потянуть таким жестом Open Ai на дно.🙃

Как по мне антропики решили красиво прогреть .., чуть позже будет новость, мы договорились, вот апи, но цена 50/100, пользуйтесь.
😁3💩2👎1
Как вам подписка за 7500 баксов в месяц?)
🤯9🤣8🔥1😱1
Была история месяц назад о том, что антропики сказали:


Переведем claude -p / sdk на использование апи.


Обещали сделать с 15-го июня, вчера было 15-ое и они резко переобулись, поняв что никому нафиг не нужны, если люди будут платить по апи🫠

Неожиданно потеря людей заставила их переобуться и сказать, что дальше можете делать все по подписке😁

Ох уж эти сапожники...
😁4👍1
Forwarded from XOR
Вайбкодинг рушит семьи 🥲

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁11
Cursor покупают за $60 млрд.

Прикол в том, что как по мне, Cursor уже изжил своё, и ребята просто решили заработать, продав его. Сделали отличный ход, разогнали рынок AI-кодинга, а теперь вовремя вышли. По сути, молодцы.

Рынок давно качнулся в сторону нативных терминальных агентов — Claude Code, Codex, OpenCode. Cursor оставался скорее по инерции и привычке. Для многих он был первым AI-редактором, но когда появились агенты с безлимитками и удобным управлением десятками проектов, смысл в IDE-прослойке начал пропадать.

Проблема Cursor в том, что это IDE с AI-слоем. Ты всё равно привязан к редактору, он жрёт память, а модель работает через прослойку. Да и на всяких CI/CD странно было бы использовать апп курсора, так как его функционал там вообще не нужен, только трата ресурсов.

Codex сейчас активно захватывает аудиторию своими действиями + условная безлимитка за $200, переключение между проектами, модель не хуже, а то в чем-то даже лучше антропиков. Плюс не надо думать про лимиты и можно работать 24/7 (конечно если у вас не 5 проектов одновременно).

$60 млрд акциями SpaceX — отличный выход для Anysphere. Вовремя, красиво. Те, кто ещё держался за Cursor как по мне, получили прямой сигнал, что пора что-то решать.

Ну или Маск за счет своих спутников сделает из Cursor мощного конкурента антропикам и OpenAi, посмотрим что будет дальше 🫠
2😁1
Там антропики собрались по паспорту верифицировать всех начиная с июля
😁23🤣1
Модели которые мы действительно заслужили
🔥1
Кажется в РФ будет сложно пройти верификацию Антропиков даже по загран паспорту…

Полная инфа тут.

Что будете делать если забанят?
🤔2
Последние недели совсем не хватает свободного времени чтобы писать что-то полезное.

Надеюсь после всех мероприятий чуть выдохну, посплю и с новыми силами опишу что вообще интересного делал по агентам и тп.

Сейчас готовлюсь к Saint Highload++ 2026, буду там 22 и 23 июня, буду рассказывать доклад 23го числа.

https://highload.ru/spb/2026/abstracts/18342

Конечно из такого, когда у меня была подготовка к Mobile Runtime и параллельно к хайлоаду еще работа и тп., то я в моменте чуть офигел от того, что свободного времени просто нет даже сесть и поиграть не много.

Работа -> подготовки -> зал -> сон (часов 6) и так по кругу последние пару недель 🫠

Понял одно, готовиться сразу к двум конфам вместе со всем остальным, это что-то на грани возможностей, условно создание на себя большого давления.

Только на подготовки и прогоны к первой (там было демо) я потратил пару миллиардов токенов🫠
🔥2
Гладков.Жизнь
Первый раз на взрослой конференции!
Было 2 прикольных дня на Highload — оказался среди большого числа очень умных бэкендеров (и не только). Из мобильных разработчиков был, кажется, только я и Лёша 😄

Про выступление

Выступил впервые на такой крупной конференции — и это вообще моё второе выступление в жизни. Презентацию мы с Глебом (@Glebmikheev) полностью переделали в понедельник вечером за 20-30 минут. А выходить на сцену — во вторник в 11:10.

Благодаря этому понял главное: можно делать презы так, чтобы вообще не думать о заучивании речи. Она просто не нужна. На слайдах — пара слов, и ты получаешь полную свободу рассказывать что придет в голову, уже по заданному сценарию слайдами 🫠

Режим был весёлый:
• сб — Сезон кода
• вс — случайно попал на митап Бушé про AI (классные доклады)
• пн-вт — Highload и нетворкинги после него
• ночь со вторника — ехал полночи обратно в Мск (пугали, что бензина нет, но везде был) 😁

Главный инсайт не про доклад

Оказалось, вокруг очень много людей, которые ещё даже не пробовали ничего делать с агентами. А я думал, что уже большинство хотя бы их пробовали, похоже сижу в каком-то AI-пузыре.

В общем, крутой опыт, познакомился с кучей классных ребят. Осталось когда-нибудь выспаться 🙃 Благо есть агенты, которые работают и управляются с телефона пока занимался этим всем.
🔥7👍3🕊1