ИИ пашет, Саша одобряет
549 subscribers
47 photos
1 video
14 links
Занимаюсь разработкой с Ai и рассказываю об опыте и полезных инструментах.

Личка: @defendend
Download Telegram
Релиз ast-index 3.44.0

Вышла новая версия инструмента https://github.com/defendend/Claude-ast-index-search/releases/tag/v3.44.0

C++ поиск стал namespace-aware: теперь работают и symbol Client, и symbol foo::bar::Client, плюс pattern-поиск вроде ::Client и foo::bar*

rebuild и update стали надежнее: безопаснее SQL query, корректнее работа с include и extra roots

часть безопасных оптимизаций rebuild вынес в дефолт из под флага (--experimental-fast-rebuild) и добавил новые бенчи для индексации / update / module graph / Android XML+resources


В общем фикс мелких ишью от ребят из c++, теперь ast там наконец-то умеет в базу)))

Ну и базовые ускорения ребилда без эксп флага, конечно чем больше юзеров, тем аккуратнее приходится делать обновления 🫠

Тут уже не скажешь клоду/кодексу как в начале, го с питона на раст разом перепишем, хоть и было все покрыто тестами)))

upd: поддержаны enum для парсинга в плюсах 3.44.2
🔥9😁2
А как еще токены можно себе заработать в 2026?)
😁193
Поздно ли вкатиться в работу с ИИ на продвинутом уровне?

Многие сейчас считают, что большиство очень хорошо разбираются в Ai и том как его настраивать и как следствие сидят с мнением, да что я там вообще могу сделать?

Как по мне в таком мнение и есть ловушка, которая мешает вам увидеть, что на самом деле большая часть людей сейчас на уровне: "у нас в проекте настроили агентов, у меня работает, что еще можно сделать то?".

Причем они сами просто не могут настроить их вообще и не понимают как и если чего-то нет в проекте, то так и будут жить.

Ну а как вообще вкатиться то?

Есть несколько классных способов, для начала возьмите себе подписку, в текущей ситуации советую кодекса, так как там почти безграничные лимиты на текущий момент.

Имея подписку, попробуйте начать каждый день общаться с агентами и пилить с ними какие-нибудь штуки + экспериментировать, так как такое число ресурсо позволяет играться как хочется и ни в чем себе не отказывать.

А какие еще способы есть?

Постоянно читать разные статьи, инфу, но ее уже столько, что это будет выглядеть как какой-то ад.

А как вообще лично я вкатывался?

Мой товарищ, Леша Гладков потратил кучу времени и сделал классные челленджи на 30 дней, еще до нового года, суть была простой, каждый день есть задание, которое не сделать руками вообще, а если не сделаешь вылетаешь сразу.

Я как раз принял участие для разнообразие в обычном (одном из первых, до нового года) и продвинутом, прошел оба и было прям весело и очень много пользы, а также принесло кучу знакомств с крутыми ребятами.

И вот как говорит сам Леша, он делает одни из последних челленджей своих и дальше с ними завязывает, 1 июня и еще один чуть позже. Проводит его он лично, и общается со всеми в чатике, можно обсудить много интересного кроме челленджа и познакомиться с другими крутыми ребятами.

Если интересно загляните к нему

Постик:
https://t.me/alexgladkovblog/6993

Сайт:
https://mobiledeveloper.tech/ai_advent_8

Ну и я с ним договорился на промик от меня, копеечка, но приятно)


AI8W1K
5👍2
Еще один способ найти деньги на токены 😄
😁18
Интересный вариант в Ai мире
😁17
Claude Code, Codex или OpenCode: что бы я выбрал сейчас?

После последних решений Anthropic с банами, закручиванием гаек и ощущением, что модели стали работать тупее, мне в какой-то момент это надоело. Решил, что пора что-то менять, и отнес свои $200 в OpenAI.

Жалею ли я об уходе с Claude Code?

Нет, пока ни разу не пожалел. Достаточно быстро мигрировал свои процессы и работу агентов под флоу в Codex: условно по 15-30 минут на один проектик, причем часть можно было делать параллельно.

Почему именно Codex, а не что-то другое?

Первая причина — на текущий момент очень большие лимиты. Они позволяют дальше экспериментировать с разными агентскими штуками, не думать постоянно о расходе и продолжать искать более эффективные и дешевые подходы.

Вторая — удобство самого приложения Codex для менеджмента кучи проектов и окон. Когда у тебя работа уже превращается в переключение между десятью окнами, когнитивно это становится тяжело вывозить.

Почему не OpenCode?

Тут все просто: я сторонник идеи, что универсальное решение под любых агентов и любые модели часто не вытаскивает максимум из конкретной модели.

Возможно, у каждого тут будет свое мнение, но мне кажется, что если у модели есть свой родной harness, то лучше начинать с него.

Не много ли $200 за подписку?

На Claude оно у меня заканчивалось довольно быстро, если себя не контролировать. А с Codex ситуация пока намного приятнее: можно буквально 24/7 работать над своим пулом проектов и не думать каждую минуту про лимиты.

В общем gpt-5.5 вообще не ни одной модели антропиков, а то и лучше чем они.
👍18
Берем 3D принтер и делаем бизнес 😄
😁244👍1
Корзинки качества или симуляция общения с агентом?

Сейчас многие пытаются построить системы оценки качества AI-агентов: наборы кейсов, скоринги, ручную разметку, автопроверки, “корзинки качества”. Но насколько такие системы действительно отражают качество агента, вопрос сложный.

С одной стороны, мы получаем понятную численную оценку. С другой стороны, критерии часто размыты, зависят от людей-разметчиков и плохо ловят реальные сценарии общения.

Тут появляется другая идея: симуляция.

Симуляция — это возможность прогонять агента через диалоги в форматах агент-агент или человек-агент. Например, дать коллегам удобный интерфейс, чтобы они могли тестировать разные флоу, или создать отдельного агента, который играет роль пользователя с конкретным профилем, целью и поведением.

То есть мы можем тестировать агента не только на статичных кейсах, но и на “отложенных пользователях”: раздраженный клиент, новичок, человек с неполными данными, пользователь, который меняет цель по ходу диалога, и так далее.

Что выбрать?

Кажется, это не взаимоисключающие подходы. Корзинки качества помогают измерять, а симуляции помогают находить новые сценарии, собирать диалоги и улучшать сами критерии оценки.

В идеале нужна связка: симуляции генерируют реальные и пограничные сценарии, а система оценки превращает их в понятные метрики качества.

Возможно, ошибаюсь, но сейчас экспериментирую в эту сторону.

Как думаете, какие сценарии вы бы обязательно добавили в симуляцию?
👍6🔥3
ИИ пашет, Саша одобряет
Корзинки качества или симуляция общения с агентом? Сейчас многие пытаются построить системы оценки качества AI-агентов: наборы кейсов, скоринги, ручную разметку, автопроверки, “корзинки качества”. Но насколько такие системы действительно отражают качество…
А может, стоит остановиться и переосмыслить систему качества агентов, подойдя к ней под другим углом?

Сегодня прочитал очень интересную и полезную статью про качество агентов и способы их оценки.

Статья: https://www.howtoeval.com/

Идея простая, но очень сильная: прежде чем строить сложную систему качества, вернитесь в самое начало и начните каждый день читать реальные диалоги вашего агента с пользователями.

Что делать?

Запускаем → наблюдаем → анализируем → улучшаем → повторяем.

Если у вас уже 1000+ диалогов в день, стоит вычитывать хотя бы часть из них, например 50-100 диалогов. Именно так можно увидеть узкие места, повторяющиеся ошибки и моменты, где агент начинает сыпаться.

Еще одна классная идея — научить агента говорить «я не знаю» в тех случаях, где он действительно не уверен. Один плохой или неточный ответ может убить доверие, а доверие критически важно при внедрении агентов в общение с людьми.

Потеряв доверие один раз, вернуть его к вашему агенту будет очень сложно.

Что еще полезно отслеживать кроме самих диалогов?

По сути, нужно строить возможность видеть всю цепочку работы агента: сообщение пользователя, ответ агента, вызовы инструментов, контекст, промежуточные шаги. Это помогает лучше понимать поведение агента и находить краевые случаи, где он ошибается.

Еще интересная мысль — попробовать «поговорить» с той же моделью, передав ей историю чата и контекст агента, и спросить, почему она дала именно такой ответ. Это не абсолютная правда, но часто очень сильная подсказка, которая помогает понять, на что модель опиралась и где могла неверно интерпретировать задачу.

И тут появляется важная идея: а что если качество агентов на первом этапе строить вокруг возможности взять конкретный диалог, завернуть его в контекст, обсудить с моделью проблемные моменты или даже переиграть поведение с определенного шага?

Будто это дает совершенно новый способ тестировать агентов не в вакууме, а через реальные ситуации.

А если агенты уже работают на тысячах пользователей?

Тем более. Анализ их поведения и общения — один из лучших инструментов для улучшения. Без этого агенты будут ошибаться, не до конца выполнять исходную задачу и постепенно терять доверие пользователей.

Да, это может быть нудно. Но кажется, что такая работа полностью окупается: вы начинаете по-настоящему понимать поведение своего агента и получаете много конкретных идей, как его улучшить.

В общем, советую полностью прочитать статью и не гнаться за быстрым решением. Иногда полезнее остановиться и сначала понять, какое решение действительно нужно.

Будто в мире с ИИ мы стали слишком много бежать. Но, возможно, сейчас самое время остановиться и переосмыслить многое.
👍6🔥3
Кратко о текущих реалиях, когда наступит момент, что агенты будут только для богатых?)
😁7
Тут недавно вышел пост, про то, что можно разместить рядом с своим решением ссылку на репо, думал и решил повесить туда ast по приколу, надо будет все же снова сходить на новое соревнование агентов, а то последнее 30 мая я просто проспал🫠

Просто его поставили в 11 вместо 14, еще и хаба в Око не было в этот раз, а значит и бесплатной еды, в итоге смысл соревноваться у меня был утерян😁

В прошлый раз я готовился с 11 до 14 до момента начала, возможно стоит чуть погонять заранее или не стоит))

Говорят в новом было весело, видимо надо идти и не скипать + настроить кэширование и тп на экономию денег🙃
😁4
Как рассказать всему миру про свою архитектуру?

А заодно поделиться ссылками на github/LinkedIn блоги? Возможно найти новые интересные проекты?

Нужно прислать PR вот в эту github repo. Описание процесса в README.MD После обработки PR,
• ваш пост появится прямо на сайте в категории Insights
• в leaderboard появится ссылка на него (примеры PAC1)

А еще можно в insight указать model_names. И если использованы только локальные модели, то получите выделяющийся бэджик прямо в лидерборд!

Ждем!

Кому интересно увидеть какие-то архитектуры - пишите в комментарии, можно сразу с вопросами. Интерес очень мотивирует авторов!

Ваш, @llm_under_hood 🤗
Интересно было бы статистику посмотреть, но как-то похоже на правду как по мне

Глава OpenAI Сэм Альтман заявил, что компании, которые активнее всех внедряют искусственный интеллект, одновременно и нанимают больше всех, — а увольнения на ИИ списывают как раз те, кто внедряет его меньше всего.
лучше мема мы уже не увидим😁
😁27
This media is not supported in your browser
VIEW IN TELEGRAM
Китайские модели - ПМ с глушителем
😁10
Последнюю неделю столько дел, что сил хватает только на мемы😁

Думаю после вс снова появится время на постики
😁13👍2
Сегодня выступаю на Mobile Runtime, с live demo. Буду отвечать по ходу дела на вопросики, это первое такое выступление у меня🙃.

Трансляции там вроде бы уже начали, сама программа тут.
🔥15🏆2🫡1
Forwarded from Yandex for Mobile_chat
Всем привет!

@defendend_ai_dev Саша Иванов так увлёкся Live Demo "Почему AI-агенты тормозят в больших кодовых базах из-за grep и как мы это исправили", что забыл показать вам последний слайд с оценкой активности 😅

Высылаем форму — будем рады вашей обратной связи!

Видео доклада ➡️ тут

Спасибо!
Please open Telegram to view this post
VIEW IN TELEGRAM
коротко о том, что рассказывая что-то, можно забыть что у тебя есть последний слайд 🫠
😁8
ИИ пашет, Саша одобряет
Claude Code, Codex или OpenCode: что бы я выбрал сейчас? После последних решений Anthropic с банами, закручиванием гаек и ощущением, что модели стали работать тупее, мне в какой-то момент это надоело. Решил, что пора что-то менять, и отнес свои $200 в OpenAI.…
Claude Code, ходит слух, что сегодня выпустят новую модель

Тут пока чуть отдыхал от конфы, и готовился к новой, появился интересный анонс.

Будто бы уже нельзя отдыхать в текущем мире, иначе за пару дней отстанешь🫠

инфа тут

В общем вроде бы это модель из нового семейства Mythos и будет называться Claude Fable

По ценам там всего то поднимут в два раза, каких-то 10$/M input и 50$/M output, всего то.., а обещали чуть ли не в 10 раз дороже, но вероятно цену занизили, чтобы подсадить по больше людей.

Возможно токенизатор стал накручивать 200% токенов😁

Интересно за сколько минут будет заканчиваться теперь 200$ подписка на клода 🫠

Но в общем, посмотрим будет ли он умнее gpt-5.5 или того же Opus 4.8