Иван Закутний про
196 subscribers
130 photos
3 videos
161 links
Авторский канал про инженерию умных систем.
По всем вопросам: @m0n0x41d
Download Telegram
Даже если там под капотом просто LLM с условным «REPL» в Lean – это очень и очень круто! 🤓
🌭1
Forwarded from Дизраптор
Ещё одна важная новость из мира эйай:

Стартап Harmonic запустил приложение с чатботом, став первым общедоступным математическим эйай-сервисом с формальной проверкой результата. А скоро обещают и API для компаний выкатить.

Обычный* генеративный ИИ работает примерно как ребёнок, которого родители научили, что ветер дует, потому что деревья качаются, и он говорит: "ветер дует". А почему он дует? И дует ли?

Другими словами, если попросить ChatGPT или Claude расписать математическую формулу, то он её... как бы сказать... попробует угадать в формате "я зделяль". Но ответить и пояснить за свой генеративный базар не сможет. Можно ли такой формуле доверять и закладывать её в серьёзные расчёты - судите сами.

А ИИшка от Harmonic под названием "Aristotle" работает не так. Генеративный ИИ (LLM) предлагает гипотезу или часть решения и передаёт её в специальный доказательный движок, который всё проверяет с точки зрения формальной логики, аксиом, мат. определений. Алгоритмически, то бишь.

Весь процесс происходит на Lean - это такой интерактивный инструмент доказательства теорем. По сути, специальный язык программирования и формальной логики, где каждое утверждение должно быть доказано шаг за шагом, а пруф должен быть проверяем машиной.

Если движок "Аристотеля" не может верифицировать решение от LLM, то генерится другое решение. Потом его снова проверяют. И так по новой, пока проверка не будет пройдена. И лишь тогда решение выплюнется юзеру.

За счёт этого Harmonic не галлюционирует, и (по идее) его можно использовать для взрослых математических и логических задач. От академической математики до инженерии, фин. анализа и даже юридических рассуждений.

* Генеративный ИИ теперь обычный, дожили, хех 😈

Дизраптор
Please open Telegram to view this post
VIEW IN TELEGRAM
3🌭1
Я пообщался с ребятами на Reddit (и не только) по поводу испытываемых ими болей при разработке AI систем.

Сами проблемы вообще не удивительно, ничего нового нет:

- Недетерминированные результаты, постоянно глючит
- Только добились нормального поведения, выходит новая SoTA модель, но с ней внезапно система работает намного хуже
- Постоянно переписывают evaluation тесты, и толка от них мало (см пункт 1)
- Ну и мое любимое – нормального агента на function-calls как они есть в API построить очень и очень сложно. Ребята пишут что максимальная точность, которой они смогли добиться, составила примерно 80%, при этом было написано более 100 eval тестов, кроме которых еще приходилось постоянно a/b тестировать руками привлекая свои семьи 😨

Вишенка на торте:

"Мы так задолбались что решили вообще переключиться с попытки разрабатывать свои AI продукты на удовлетворение потребностей наших прямых клиентов"


Я так понял что подразумевалось удовлетворение этих самых потребностей с использованием LLM.

И вот это удивительно – коллеги одновременно не могут найти решения своим страданиям, и при этом пародаксальным образом начинают решать реальные боли клиентов проще и лучше, чем любые другие своим стартапные начинания.

На фоне этого небольшого исследования я написал пост на boosty где я раскрываю конкретную причину всех этих страданий (сама причина крайне обширная, но все еще очень конкретная), и даю базовый но емкий чеклист вместе со ссылкой на хорошее описания SoTA паттерна разработки AI систем.

in my honest opinion этот чеклист, понимание проблемы, и упомянутая техника при должном применении решат просто огромное количество упомянутых бед 🫣

***

Поделитесь тут в комментариях своими болями, самому дущераздирающему комменту отдам пост с бусти прямым линком.
Please open Telegram to view this post
VIEW IN TELEGRAM
43🌭1
А еще вся эта история про общение с зарубежными коллегами заставила продолжать переосмысливать формат моего блога, и платной и бесплатной части. Особенно то почему я стал писать реже и неосознанно подрывать деятельность, не инвестировать в рекламу boosty.

Причин несколько.

Во-первых, очень врядли что хоть сколько нибудь большое количество людей будут платить за блог на boosty – не сколько из за отношения, сколько потому что boosty далеко не все зарубежные карты принимает, ну и там тупо неудобно читать (кто подписан на меня знает, что я просто скрытые линки раздаю там с того же самого публичного блога что живет на ivanzakutnii.com)

Во-вторых, практически все хорошие блоги живут на формате почтовых рассылок вроде substack. Я точно не знаю почему, но мне самому как читателю сабстаков просто тупо удобно получать новые посты на почту.

Ну и публиковаться я продолжаю на двух языках, и менять этого не планирую. Как минимум есть проблемы, запрос.

Кто тут сидит давно помнит короткий период жизни моего сабстака. Почему я бросил туда писать? Ну... не бросил, туда публикуются посты без пейвола 💧

TL;DR – Stripe не работает в Армении, а двигаться я никуда не собираюсь 🙂

Я эту запару упоминал тут и опрашивал вас.

Чтож-делать чтож-делать? Писать на английском нужно, и продавать подписки тоже нужно везде. Мой ментор несколько месяцев назад подкинул посмотреть на ghost.org – я посмотрел и история там примерно такая же.

Это opensource платформа, но у них есть облачные тарифы, все круто и выглядит даже чуток лучше чем сабстак если бы не одно но – нормальную интеграцию ребята сделали тоже только со страйпом, и уже третий или четвертый год на всех форумах и issue где люди плачут что у них страйп в стране не работет получают в ответ – "ну вот тут у нас есть admin api, вы тут можете как нибудь двумя костыликами подпереть на вебхуках, или zapier'ом из патреона подписчиков синхронизировать"

Учитывая это, и то что хотелось бы вести блог-рассылку и на территории РФ я чуть ли не единственным выходом вижу... Напилить свою мини-платформу и платежи тоже самому интегрировать ¯\_(ツ)_/¯

mailgun + verifone пока фавориты технологий под капотом, а усилий выглядит не многим больше чем лепить костыли вокруг ghost, или еще хуже – вести несколько разных платформ и пытаться как то их синхронизировать. Я думал развиватьс boosty + patreon для остального мира но это очень странно, и теряется очень и очень ценная штука – база подписчиков, тупо список с почтовыми ящиками.

такие дела.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭21
Эта записка только для тех кто хочет сдвинуться с мертвого места.

Хотя комфорт это даже не "мертвая зона". Комфорт – это стопроцентный паралич 💀

Без системы работать как надо не будет ничего.
Вообще ничего.


Мы находимся одновременно в ситуации где имеем:

– ограниченные ресурсы
– бесконечную бомбардировку помойной информацией вытекающей в дешевый дофамин
– кучу адекватных хотелок которые никак не реализуются (они у всех примерно одинаковые)
– кучу неадекватных хотелок которые чудесным образом реализуются, путем траты на них тех самых ограниченных ресурсов, но никак нас не подталкивают к реализации хотелок адекватных
– исчерпывающий набор когнитивных искажений, о которых часто и не подозреваем

Чо ж с этим всем делать?

Кажется что сперва надо четко определиться с тем что вообще надо, а потом маленькими шагами двигаться в сторону, в которой предположительно это самое «надо» находится.

Круто, просто, и так понятно, только мало когда делается.

На деле главное, первое что надо сделать, это признаться самому себе в саботировании всех начинаний, найти в себе разумную смелость, готовность к сложностям.

Готовность к постоянным жертвам.

Это не просто про "выйди из зоны комфорта", это про полное и безоговорочное принятие жизненной модели, в которой мы безжалостно жертвуем никчемной ерундой.

Ерундой ROI которой не просто минимален, а вообще отсутствует.

Без этого не поможет даже самый дорогой и лучший ментор.

Да, до какой то степени пинки снаружи стимулируют нас, и чем болезненне эти пинки тем лучше стимул...

Только вот без модели, без системы, без адекватной и свежей прошивки своих мозгов после консультации даже у просветленного монаха мы стремительн и радостно бежим в свое болотце.

---

Первая система которую нам надо построить, это система-терминатор всех паразитов в нашей жизни, которым мы добровольно отдаем то самое ценное что есть – время самой жизни.

Давайте пока вместе сядем и подумаем – "Где я буду через 5 лет, если ничего не изменю в модели своего поведения? Если не начну отказываться от своих деструктивных убеждений?"
Please open Telegram to view this post
VIEW IN TELEGRAM
6🌭222
Channel photo updated
Channel name was changed to «Иван Закутний про AI»
Как заставить думать обоих – машину и себя самого.

В любой системе где есть хоть какой-то интеллект можно обнаружить так называемое концептуальное пространство.

Что это вообще такое и почему важно?

Совсем просто, на пальцах – прочитав сейчас вот это слово – "кресло", вы совершенно точно, однозначно представили себе какую-то штуку (скорее всего мягкую и удобную) на которую можно поместить свое тельце в сидячем положении.

А теперь – "красота", "любовь", или вот, еще лучше – "справедливость".

Про эти штуки можно с большой уверенностью сказать – сколько людей, столько и мнений. Эти идеи сильно зависят от культурных особенностей, убеждений и прочих ментальных напылений.

А важно, потому что зная про плотность смыслов можно:
- лучше проектировать AI системы
- научиться обращать свое внимание на любые "размытости"

Находя таки размытости мы получаем шанс избавиться от них.

***

Небольшое оступление:

Сильные и выразительные системы типов в языках программирования автоматически заставляют разработчика нагонять плотность в концептуальное пространство программы "наперед", во время смой разработки.

Но это история про Software 1.0, весь интеллект там был белковый, распределенный по головам людей.

Сейчас же, когда мы внедряем LLM в свои системы, по существую у нас есть одно единственное желание – пусть эта новая и умная система работает точно, отвечает на вопросы как надо и не путается! Ну... пожалуйста.

Мы берем большую модель, и как сову на глобус пытаемся натягивать ее на наш небольшой кусок мира, некоторую прикладную область.

Нет ни одной гарантии что в двух организациях, из вроде бы одной и той же прикладной области, сотрудники будут говорить на одном и том же "прикладном языке"

Как же мы тогда можем ожидать от LLM что они нас "поймут" и будут давать предсказуемый и нужный результат?

Короче говоря, нам нужен способ заставить "думать как надо" этот новый искуственный интеллект.

Нам нужен способ повысить плотность концептуального пространства.

Почему не работает подход "просто засунь все в контекст" я уже писал например здесь, где в заключении призывал думать прежде чем делать, приводя в пример короткий список заземляющих вопросов.

Но это все очень смешно и размыто. Легко сказать "думай давай", делать то что?

Если вы внедряете AI я предлагаю, нет, я настаиваю что вам нужно в обязательном порядке ознакомиться со Schema Guided Reasoning и попробовать применить в своих проектах.

Ринат Абдуллин формализатор и амбассадор SGR, на русском много полезного прочитать по теме и пообщаться с ним вы можете в его канале.

***

Другого надежного способа заставить LLM думать так как нам нужно сейчас попросту нет.

Возможно когда то у нас будут квантовые супер-компьютеры на которых мы сможем в день тысячи раз обучать, модели с сотнями миллиардов параметров, но это все таки пока еще далекий sci-fi


Structured Output сам по себе работает лучше любой другой техники промт инжиниринга просто потому что мы получаем возможность физически загнать результат работы модели в рамки и типы описанные в JSON схеме.

При этом, конечно же, не отбирая у нас системный промпт как источник дополнительного контекста.

А еще разрабатывая AI системы через SGR призму мы автоматически заставляем самих себя болььше и детальнее думать "наперед" про домен задачи, важные сущности нашей системы, важные знания, которые могут потребоваться для LLM при решении поставленных задач.

Мы именно что моделируем процесс мышления с помощью этой штуки. И это замечательно – превращать нечеткие требования в надежно работающие системы.

Если вы искали хороший материал про Context Engineering о котором сейчас пишет каждый первый AI журналист – вы наконец его прочитали.
63🌭21
Значит, Эмбеддинги.

Вчера у меня в гостях был мой замечательный дружище, который сейчас работает в одной махровой компании – у них там всякие интеграции аккаунтингов, онлайн магазины и так далее.

Ну, говорю же – махровая 😊

Зашел долгий разговор про эмбеддинги, начиная с "а что с ними вообще можно сделать?"

Я весь разговор пересказывать не буду, но TLDR такой – никакие эмбеддинги им там не нужны, и старое решение работает более чем замечательно.

На сам вопрос "что сделать то можно", я много и рассказать не смог, потому что со страхом и ненавистью RAG все понятно, а остальные кейсы хоть и крайне специфичные, но с разной скоростью всегда сваливаются в "насколько X похоже на Y" 😯

Мы сначала подумали что можно было-бы сделать улучшенный поиск товаров, но в итоге оказалось что улучшать попросту нечего – там сейчас очень и очень шустро поиск работает на redis c redis-search плагином.

---

Но вообще хороший пример некоторого более общего применения эмбеддингов это идея библиотеки semantic-router.

Я уже неоднократно ее использовал для того чтобы собирать пайпланы с высоким требованием к точности "выбора". При том выбирать то можно почти что угодно :)

Например RAG источники, правильное под-системы (агент, если хотитите. Основная идея либы), или даже выборать функций для вызовов.

Последнее получается много лучше чем нативные function-calls, как минимум потому что можно добиться большей степени детерминированности и в смысле конечного результата, и в смысле работы самой системы если строим pipeline/workflow без всяких графов.

На дворе 2025 год а loop-like LLM агенты до сих пор в бесконечные циклы проваливаются.


Самое классное что есть под капотом у semantic-router это fastembed – быстрая векторная rust молотилка, работающая на ONNX. Оно легкое и более чем сносно работает без GPU.

В общем если вам правда надо в эмбеддинги – рекомендую сразу смотреть на fastembed.

А на счет "правда" и "надо" напишу позже отдельно 📝
Please open Telegram to view this post
VIEW IN TELEGRAM
6🌭1
Значит, вайбкодинг.

За последний год с хвостиком мой голос по поводу вайбкодинга принимал совершенно разные значения на шкале от "Боже, это просто омерзительно" до "Боже, это просто восхитительно".

А в какой-то момент я на эту тему просто замолчал. Просто потому что естественным образом использование LLM-based ассистентов и прочего в большей части моей деятельности стало практически неотъемлемым.

Сейчас пишу об этом, потому что вчера меня спросили – "Слушай, а какое у тебя соотношение написанного кода к сгенерированному?"

И я впал в ступор, натурально. Потому что:

- Кода генерируется много, процентов 80% как минимум
- Кода генерируется мало (в смысле бойлерплейт мусора, об этом дальше)
- 90% сгенерированного кода вычитывается настолько внимательно, насколько это возможно
- Все что нужно исправить – исправляется либо вручную (если мало), либо в точечных последующих промптах

При этом я знаю людей которые генерируют 100% прод кода с телефона и живут припеваючи.

***

Интересно то, насколько сильно отличается сгенерированный код у разных людей в смысле качества, стиля, и вообще функционально; Не знаю обращали ли вы на это внимание.

Точнее как, у не очень опытных в программной инженерии человеков как раз таки получается примерно одинаковый результат, его достаточно просто распознать как "LLM-blob":

- Решения – странные, неуместные;
- Избыточные комментарии там где они не нужны, или полное отсутствие комментариев в откровенно переусложненном коде;
- Использование паттернов, которые нигде в проекте больше не живут без какого либо архитектурного оправдания;
- и так далее.

А кидать такие вот шмоты мертвого кода друг другу на code-review это не менее чем производственное преступление.

***

Мне нравится шутливо называть LLM поломанным хорадрическим кубом.

Если вы играли в Diablo 2 то знаете о чем я – такая волшебная коробочка через которую одни предметы можно превращать в другие.

Умножать предметы перестало быть возможным после исправления багов в игре 🤪

Так вот LLM это такой поломанный куб, в том смысле, что он драматически умножает поданные на вход когнитивные усилия и качество этих усилий.

Кроме общей инженероной подкованности, хороший вайбкод еще рождаются благодаря инфраструктурным улучшениям.

Для локальной разработки, например, хорошо набросать всякие MCP, которые будут давать больше контекста ассистенту. И как бы там курсор не пыжился в кросс-сессионную память, более продвинутые решения вроде openmemory работают просто лучше.

Навык вовремя сделать шаг назад и сбросить контекст придет только c практикой.

В качестве доп. чтения вот еще хорошая статейка на английском.

Короче говоря – 2 часа изучать код, собирать контекст чтобы написать детально проработанный промт, а потом за 40 минут сделать задачу, на которую без ллм вообще ушло бы 2 дня – НОРМ.

Ставьте огоньки если тема интересна, буду писать еще примеры на пальцах примеры о том как сам вайб-проектирую и вайб-работаю :)

---

“It bothers me that I can’t press a button and check on the rest of the world, or at least the small parts of it that I’m interested in. I’m not the only one. You haven’t been able to walk around and see it, dear, but the irritability threshold around here is lower than it used to be. We’re not in our natural habitat anymore. We’ve become denizens of the net. Homo datum.”
― Pat Cadigan, Synners
Please open Telegram to view this post
VIEW IN TELEGRAM
213🌭1
Судя по количеству реакций, как минимум 10 человек меня читают с интересом.

Спасибо вам!

Мне очень важно собрать хотя бы от половины из вас фидбек про канал и материалы. Обещаю что это не займет более 10 минут.

Если вы готовы ответить на несколько вопросов на этой неделе – напишите, пожалуйста, в комменты что нибудь ❤️

p.s. просто обозначьтесь, я скину вам форму с опросом потом :)
Please open Telegram to view this post
VIEW IN TELEGRAM
2🌭11
Значит, AI заменит программистов.

В последнее время я наблюдаю радикально позитивную тенденцию – пусть и зачастую почти беспредметно, но в популярных AI-движ рассылках и прочих медиа все чащепроявляется топик "AI системы это просто программные системы в которых где-то есть LLM".

И это хорошо.

В общем и целом, для IT индустрии LLM это просто новая, но уже укоренившаяся бэкенд технология.

А AGI, ai-2027 и прочее, кажется что обитает примерно в той же пространственн-временной линии, где DeFI блокчейн евангелистов победивший/поглотивший "старую экономику."

Мы туда как-бы стремимся, но с ближайшей реальностью это мало общего имеет.

Конечно технология прекрасна, предоставляет огромные возможности и ускорения, но нам должно быть понятно вот что – требования к разработке программных систем не то чтобы не ослабевают, а ровным счетом наоборот.

Особенно если там где-то внутри есть хорадрические кубики.

***

Вот тут наисследовали влияние на занятость с появлением AI.

Нас в первую очередь интересует IT: джунам стало труднее, ибо LLM асссистенты пожрали подавляющее число задач на которых джуны учились в профессию, а сеньоры получают примерно столько же денег, но вынуждены осваивать новые технологии быстрее.

Для последних так словно вообще ничего не поменялось 😃

Иными словами – AI пожирает простые прикладные задачи но требует мастерства, превращая программирование из потокового ремесла в инженерное искусство проектирования и управления сложными системами.

Например, spec-driven development – великолепный тренд, ознакомьтесь.

Значит ли это что стать программистом или каким нибудь SRE/DevOps стало сейчас сложнее?

Не значит – стало сложнее идти по старой дорожке, когда мы довольно быстро могли нахвататься относительно простых навыков кодирования и/или администрирования.

Но учиться теперь стало многократно проще, в том числе "вкатываться в айти с нуля в 27 лет"

Если раньше у нас просто был интернет с кучей знаний которые надо было лишь поискать, то теперь есть возможность за условные 20 баксов получить крайне компетентного ментора – в объеме знаний, в вечно хорошем настроении, и с очень быстрым циклом обратной связи!

Впрочем это не отменяет ценности белкового менторства, как по мне и то и другое замечательно работает в синергии.


Claude или ChatGPT может для вас составить и план обучения, и провести вас по нему за ручку – вопрос только в вашей находчивости и желании чему-то научиться.

Спорный момент – когда мы совсем ничего не знаем про предметную область, мы даже не в курсе что вообще спрашивать, и не способны трезво оценить качество предоставляемой в ответ информации.

Мое мнение тут такое – не беда. Даже с учетом всех возможных галлюцинаций и чуть-чуть устаревшего датасета в большинстве случаев можно получить отличные результаты если просто начать задавать вопросы.

Привет! Я хочу стать [X]. Помоги мне составить план обучения.

Мой текущий уровень: [полный ноль/базовые знания/etc]
Мои цели: [найти работу через X месяцев/изучить для личных проектов/etc]
Сколько времени могу уделять: [X часов в неделю]

Составь:
1. Пошаговый план обучения с временными рамками
2. Конкретные ресурсы для каждого этапа
3. Практические проекты для закрепления
4. Критерии оценки прогресса

Задавай уточняющие вопросы, если что-то непонятно.


AI не убивает программистов — он убивает тех кто не готов адаптироваться и самосовершенствоваться.
Please open Telegram to view this post
VIEW IN TELEGRAM
10🌭1
Всем кто вчера любезно отозвался на клич про фидбек я уже разослал в личку яндекс форму.

Если вы пропустили пост, но все таки не против пройти короткий опрос (который мне очень очень очень поможет!) – Милости прошу!

Яндекс-Форма
Google-Форма (eng)

Заранее благодаю 🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
2🌭1
А сколько раз в день вы…запускаете deep research
Anonymous Poll
62%
0 ☺️
24%
1-2 😡
5%
2-5 😡
8%
5+ 😎
🌭1
подписку ChatGPT Plus, которую я возобновил вчера.

Я давно не power-user ChatGPT, а от подписки из своего кошелька отказался, когда появилась любезная возможность использовать корпоративную (впрочем, по правде говоря на тот момент я уже практическипользовался не пользовался ChatGPT несколько месяцев)

Зачем? Мне не давали покоя посты Рината о том как он раздает таски флотилии Codex агентов с телефона, пока занимается другой вдумчивой работой.

А корпоративный chatgpt я попросту не смог подключить к своему гитхабу (что вообще ок в целях сесурити)

Зная все ограничения LLM, мне все равно было безумно интересно проверить насколько успешно можно собрать с нуля простой проект на несколько тысяч строк кода.

Результат такой – я не выспался.

Потому что до поздна игрался как ребенок в codex на телефоне 🎮

Точнее как, достаточно кода нагенерировать за вчера я не успел, но не менее часа потратил на то чтобы получилось два документа:

1. project_prd.md
2. AGENTS.md на базе первого.

Это вот про тот самый spec-driven-development.

Спеки я разрабатывал с claude, попутно запуская его в интернет чтобы поискать решения получше или проверить мои.

Какого-то секретного промпта для разработки PRD с ллм нет, просто перечитайте этот пост и провалитесь по ссылкам.

Я честно говоря вообще делаю так "привет, ты лучший в мире проджект менеджер, прожарь мою идею по кругу пока не сделаем prd: <идея>"

---

После того как спеки были готовы – пушим в репу, создаем environment в Codex и кормим ему этот промпт (вам наверняка надо будет его чуток поправить)

А после, идем по правилу 1 таска из полученного плана = 1 мр.

Ну и да – запуская таски с пк веб версии можно указать до 4 реплик агента, а потом выбирать лучший мр. Но я в текущем эксперименте обхожусь 1 контейнером и последующими правками в каждой таске.

Я рекомендую убедиться что агент в IMPLEMENTATION_PLAN.md указал Phase 0 с имлементацией CI/CD для тайпчекеров, линтеров, и запусков тестов (с ковереджем или без).

***

На данный момент ситуация такая – по моему проекту Phase 1 уже завершен, а это по сути MVP для локальной небольшой агентской системы которая пылесосит социальные сети и отбирает посты/сообщения с релевантным мне контентом. Оставшиеся 3 эпика это всякие улучшение интерфейса и добавление аналитики.

1248 total вполне себе бодрого, джуновского но чистого python кода.

Цель – трогать код минимально, а лучше не трогать вообще. Пусть весь код генерируется ЛЛМ, а я выступаю исключительно в ролях душно-придирчивого надзирателя и QA тестировщика.

ееее, software 2.0 🤟
Please open Telegram to view this post
VIEW IN TELEGRAM
433🌭1
вторые сутки с облачным Codex.

Впечатления пока еще крайне смешанные. Но вполне позитивные.

Spec-Driven-Developemen конечно работает, тут вообще ничего нового потому что примерно таким же образом я работаю и с разными моделями в курсоре, и с клавдия код.

Но вот облачный кодекс... ну это явно что-то.

Только вот пока не понятно что 👌

Одно скажу – вайб прикольный, и за плюс придется платить дальше :)
Была бы польза, и польза – есть.

ревьювить результаты тасок с телефона не очень удобно, но возможно. И запускать следующие таски – тоже.

Если план задач хорошо расписан и есть установка в AGENTS.md"отмечай в каждом mr чекбоксами то, что ты сделал", то это делается прозаически – "а ну работай дальше по плану!!!" 🤬

Проблема в том, что если таски слишком маленькие – codex их делает слишком быстро. 🤔

Если таски слишком большие – их придется слишком долго ревьювить, и часто результаты либо получаются хуже, либо... Codex просто забывает что-то сделать из чеклиста ¯\_(ツ)_/¯

переключение контекста очень утомляет, даже закаленного меня на прошлых работах и подработках адским огнем аутсорсинга.

И тем не менее – отвлекаться надо как можно реже, ибо фокус бесценнен.

Какое промежуточное резюме?

Codex это крутая штука, как минимум для того чтобы начать двигать ваши пет проекты которые слишком долго сидят в голове (или обсидиане) как идея, и где то в основании черепа потом начинает чесаться разочарование – "никак не могу найти на это время".

Лучшее – враг хорошего. Никакое – враг чего-то работающего.

Так чо нет ни одной причины НЕ клепать PoC/MvP проекты на Codex, это как минимум одна из его идеальных ролей.

Ах да, я уже 2 проекта в нем делаю, и все еще стараюсь изо всех сил придерживаться экспериментальной установки "ничего не переделываю за ним руками".

Продолжаю наблюдение 😐

Codex CLI я кстати вообще не распробовал – он не глуповат... но неумелый чтоли.

Константин Доронин тут пишет про cli по полочкам –почему Codex CLI пока уступает тому же Claude Code. 💯 солидарен.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🌭1
Zed редактор.

Значит, впервые я посмотрел на Zed во времена, когда работал исключительно в vim'е.

Особых впечатлений не произвел – ну хороший, ну на расте. Ну... быстрый, а vim еще быстрее :)

В какой-то момент я пересел на Cursor, и свежо впомнил почему отказался когда то от vs code.

Все это время Zed развивался как очень порядочный опенсорс.

Вчера я обнаружил что отвечая временам и нравам Zed превратился в практически AI First редактор.

Мне нравится!

В бесплатный тир входит 50 запросов в месяц и 2000 предиктов в стиле копайлота (там "zed-hosted" антропик)

Можно поддержать Zed подпиской за 20 баксов и получить 500 промптов месяц.

Можно взять свой api ключ практически от любых провайдеров и пользоваться бесплатно.

Можно в ollama и openrouter.

И самое крутое – можно в cli агентов по Agent Client Protocol, какое то время там был только gemini cli, но вот буквально несколько дней назад добавили claude code.

Использование cli агентов самую малость сыровато, например нет истории чатиков-тредов, но... зачем она нужна? Я за год на курсоре в историю заглядывал раз 5.

Короче говоря – работать это вообще не мешает.

Zed ощутимо шустрый, есть желание пересесть на него полностью, и препятствий для этого вроде бы нет (vim motions по законам хорошего вкуса предлагают врубить прямо на старте).

Чувствуется Zed как глоток свежего воздуха, у него какой-то другой вайб.

В отличии от курсора он не навязывает вайбкоддинг, чтоли. Ну и не дребезжит как запорожец на старте 😏

Расширений-плагинов стало много больше, Zed уже совсем не сырой.

Пробуйте!

---
Иван Закутний про Zed
Please open Telegram to view this post
VIEW IN TELEGRAM
4🌭11
то как сэкономить денег на генерации кода!

Значит, есть GLM-4.5, которую выдала Поднебесная минувшим летом.

Не так давно у z.ai появился так называемый coding plan.

Предлоежние простое – платишь 3 бакса в первый месяц, и 6 в следующие.
Получаешь – 5x больше вабкодинга чем в Claude Max (тот который 200 баксов, да) 👀

Работает этот coding plan только с claude code антропика, настраивается он там же тремся переменными в окружении или в .claude/settings.json

В дополнение эта история хорошо ложится на Zed, о котором я вчера писал, так как там claude code работает сразу в редакторе.

Не могу сказать что когнитивные силы для генерации кода у GLM-4.5 прям уж сильно хуже чем sonnet 4.

На небольших, "дежурных" задачах агент справляется нормально. Но в длинных тредах деградирует заметно быстрее, и никакой компакт особо не помогает :)

Стоит ли оно 6 баксов? Кажется что стоит. Отличный вариант чтобы вкатиться в разработку с LLM ассистентами.

***
Иван Закутний про Claude Code с GLM-4.5
Please open Telegram to view this post
VIEW IN TELEGRAM
7🌭11
полу-финальное впечатление от облачного Codex.

Ну, я даже не знаю что сказать :)

В общем то проект который я навайбкодил в рамках эксперимента "Вообще ничего не править руками" готов до состояния MVP которым я уже пользусь.

Проект небольшой – чуть меньше чем 4к строк кода. Ничего интересного – веб-дашборд с пылесосом новых сообщений из самых интересных телеграм каналов с небольшими AI и полу-AI аггрегациями чтобы меньше тратить времени на бродяжничество по приложению дальше личных сообщений. Вроде эхо камеры :)

Скажу так – повторять эксперимент ровно в таком же формате я скорее не хочу.

Но выбрасывать codex тоже не планирую как минимум по двум причинам.

Во-первых и все таки – запускать атомарные и небольшие задачи с телефона в удалении от основной рабочей станции очень приятно.

Во-вторых и вы уже скорее всего знаете – буквально два дня назад codex начинили GPT-5, а это значит что 3/4 этого проекта я напилили на кодексе "предыдущей версии" и сейчас он должен быть чуток умнее.

Пока впечатления такие, что облачный кодекс это отличный side-kick агент для проекта который был разработан с большим вовлечением человеческих мозгов до более-менее стабильного состояния.

У человека тогда в голове будет намного более плотная ментальная картина проекта, а значит человек сможет (надеюсь) много более точечно выделять подходящие задачи и отдавать их Codex фоном.

Здесь я совершенно естественно вспомнил про background agents из курсора. Все бы хорошо, если бы они не биллились прямо по расценкам API, и OpenRouter'ом хотя бы рядом с курсорм где то пахло, но нет.

Что же со всем этим делать? Ну, очевидно же – надо сделать что-то более полезное и посложнее. Есть один кандидат на переписывание с парой потенциальных улучшений и/или упрощений: serena mcp на питоне.

Кажется что идея сервера – прекрасная. Реализация... Странная 😨

Я попробовал поработать с ним и CC превратился в неадекватного дурня!

В добавок – кто вообще подумал что это хорошая идея давать агенту тул для regex based (аля sed и вот это все) замены строк в файлах? Зачем?! Зачастую строки меняются криво, и самое плохое – если использовать серену в Cursor или Zed, мы теряем все прелести динамического ревью изменений сделанных ассистентом!

Ну что, будем делать подобный mcp, но на go и с чуть более умной индексацией, памятью и ограниченным числом тулов?

@neuralstack
Please open Telegram to view this post
VIEW IN TELEGRAM
3🌭1
опенсорсные cli агенты для вайбкода 🕺

Продолжая свое расследование на тему повышения качества программной и платформенной разработки с участием LLM я наткнулся на несколько интересных штук:

Goose, OpenCode и Crush.

Искал я вообще что-то вроде оркестратора задач, чтобы можно было прямо как в облачном codex запускать разных агентов, желательно в изолированных средах и потом ревьювить код.

Важным условием была прозрачная поддержка Claude Code.

Я конечно вижу восторженные отзывы от нового Codex на стероидах GPT-5, просто сам еще не добрался упорно попробовать. Как бы там ни было – Claude Code мы знаем и любим.

Goose сборка прилетевшая из brew install вообще не запускает cli "провайдеры". Подебажим как нибудь.. потом никогда :)

Crush – очень красивый, выглядит аппетитно, но говорит – "Мы не интегрируем подписки антропика, это противоречит правилам и вообще приносите свои ключи и вот, пожалуйста"

opencode... Искал медь а нашел золото!

opencode это точно мой новый друг.

Во-первых – хочешь использовать подписку антропика? Да пожалуйста! Они даже пишут в документации что "Это сейчас лучший способ использовать OpenCode!"

Меня все еще душит жаба отдавать $200 за Claude Max, поэтому по лучшим традициям сегодня утром я быстро ударился в лимиты и ушел до часа дня работать под другими моделями 🤬

***

Что еще хорошего в opencode? Конечно можно повтыкать mcp, это уже никого не удивляет.

Вот что важнее – это коробочная поддержка lsp для многих серверов. Я не смотрел в исходники, но первичный опыт крайне позитивный – я не подключал ни openmemory, ни context7 (OpenRouter предоставляет тул для похода в интернет и вполне хорошо его утилизируют.) – агент под разными моделями справляется очень очень хорошо.

Короче говоря, serena на go можно не переписывать :)

Что там еще? В opencode можно настраивать разных агентов двух режимов.

Режим primary, вроде ничего сверх-нового. Такие преднастроенные промпт (или в json конгфиге или yaml на каждого агента), но которые можно в рамках одной сессии удобно переключать жмав на tab.

Помимо промпта все тулы, и родные и от mcp, можно для агентов настраивать как включенные, "спрашивай прежде чем делать", и отключенные. Отключенные, как я понимаю, не попадают в контекст агента.

Я повторяю, вы можете переключать primary агентов в одной сессии.
Это работает просто великолепно.

По умолчанию нам из коробки дают поиграть с двумя агентами – Plan и Build. Тоже база – первый ничего не может писать в файловую систему, просто помогает спланировать таски и тд. Build – полная батарея которая бежит выполнять ваши задачи.

И да, они прям шарят контекст сессии.

Добавьте теперь сверху то что в opencode можно настроить практически любые модели, от openai, google, anthropic, до дипсиков и ollama/llmstudio. Ну и конечно же – OpenRouter.

Агентам можно предустонавливать дефолтную модель в настройках, но нам вроде бы ничего не мешает в сессиях прозрачно переключаться между агентами и моделями тудым-сюдым 👍

Разумеется можно настроить Z.AI GLM-4.5 Codding Plan, о котором я рассказывал позавчера.

Скажу так – GLM-4.5 настроенный в claude code меня не особо впечатлил (сделаем скидку все таки на тупую serena которая была тогда включена)

Но вот в opencode... я пол дня проработал под этим китайским чудом, с двумя дефолтными агентами (перегрузил только plan чтобы он чуть придирчивее был и на выходе создавал IMPLEMENTATION_PLAN.md с чеклистами)

Ииии... я не заметил сильной разницы с claude code. В общем и целом очень похожи – по вайбу и качеству работы над задачами.

***

Второй тип агентов – субагенты. Их можно вызывать через @, или primary агенты могут их вызывать сами на основании короткого описания субагентов в настройках (через Task тул).

Эти субагенты получают отдельную сессию, изолированный контекст. С ними я еще прощупать не успел, но... Круто же! Им тоже можно настраивать разные модели и вот это все...

Я настоятельно рекомендую opencode! Обязательно расскажу про дальнейший опыт.

Эх... вот бы в нем можно было еще через ChatGPT подписку получить в нем GPT-5-Codex!

@neuralstack
Please open Telegram to view this post
VIEW IN TELEGRAM
4🌭1