СТО в вашем стартапе на сегодняшнем мите сказал: "Нам в команде хватит 3 сеньоров вместо 10 разработчиков".
Возможно он не шутит.
Скорее всего вы уже забыли про исследование METR, где обнаружилось что AI в прикладной работе разработчиков часто замедляет, а не ускоряет.
А вот свежее от Anthropic – на базе 100K разговоров с Claude 132-ух инженеров внутри компании.
Результат - 80% экономии времени. Дарио Амодей говорит: "70-80-90% кода в Anthropic пишет Claude"👀
Один из их инженеров: "Такое чувство, что я прихожу на работу каждый день, чтобы самого себя этой же работы лишить".
Как так?
METR: AI замедляет на 19%
Anthropic: AI ускоряет на 80%
Разница в 99 процентных пунктов. Кто врёт?
Никто.
Это не про инструмент. Это про то, как мы работаем.
Вот как это движение в правильную сторону выглядит на практике:
Anthropic сегодня анонсировали прокаченный Claude + Slack. Тегаешь @Claude в треде - и он теперь решает сам: либо просто ответить в контексте, либо автоматически создать сессию Claude Code и делегировать задачу туда.
От алерта до PR с минимальным участием человека.
Раньше баги или отправлялись в вечный беклог, или лениво копились в "in progress" и нагружали и без того уставших разработчиков дополнительным переключением внимания.
Просто METR измеряли "дали разработчику Cursor и смотрим что будет". А Anthropic измеряли AI, встроенный в процессы разработки, скорее всего еще и с довольно строгой инженерной культурой и методами работы с этим AI.
Вот разница.
Первое, это когда вы купили дорогой инструмент и ждёте магии. А второе, это когда вы перестроили процессы и методы работы под сильные стороны AI, именно то за что я всю дорогу топлю в этом блоге.
А теперь представьте недалекое будущее:
Команда из 10 разработчиков: -> 7 фиксят техдолг, баги, клепают мелкие круд задачи → 3 синьора/техлида проектируют новое
VS
Команда ТОЛЬКО из тех самых 3 сеньоров++ с Claude: -> Claude фиксит техдолг, баги, круд (тегаешь @claude в Slack с Sentry алертами) -> 3 инженера проектируют новые фичи и решения
Производительность выше. Затраты ниже. И да, очень гурбо, но ~7 человек больше не нужны.
Эти ресурсы можно перераспределить или на маркетинг, или компенсировать за повышенное число закрываемых задач мега-сеньорам 🙂
Да, сейчас в интеграции Claude Code в слак есть баг - контекст треда не передаётся в сессию. Но это просто баг. Его исправят за неделю, максимум две.(Скорее всего намного быстрее – ибо это ломает смысл интеграции более чем полностью)
Так что будущее вот вот наступит, да?
И это будущее не в том, чтобы дать каждому разработчику AI-ассистента и ждать не пойми чего. Ускорение генерации плохого кода мы уже проходили.
Будущее в том, чтобы встроить AI в процессы: от алерта до PR с минимальным участием человека.
Кстати, в METR исследовании не до конца понятна компетенция разработчиков в системном мышлении и работе с LLM ассистентами. Возможно, проблема не в AI, а в том, как люди с ним работают.
Даёте команде AI-инструменты и ждёте magic? Получите -19%.
Встраиваете AI в процессы? Получите +80%.
Разница не в инструментах. Разница в том, как вы их используете.
Не знаете, как это делать правильно?
Приходите на консультацию: @m0n0x41d❤️
Возможно он не шутит.
Скорее всего вы уже забыли про исследование METR, где обнаружилось что AI в прикладной работе разработчиков часто замедляет, а не ускоряет.
А вот свежее от Anthropic – на базе 100K разговоров с Claude 132-ух инженеров внутри компании.
Результат - 80% экономии времени. Дарио Амодей говорит: "70-80-90% кода в Anthropic пишет Claude"
Один из их инженеров: "Такое чувство, что я прихожу на работу каждый день, чтобы самого себя этой же работы лишить".
Как так?
METR: AI замедляет на 19%
Anthropic: AI ускоряет на 80%
Разница в 99 процентных пунктов. Кто врёт?
Никто.
Это не про инструмент. Это про то, как мы работаем.
Вот как это движение в правильную сторону выглядит на практике:
Anthropic сегодня анонсировали прокаченный Claude + Slack. Тегаешь @Claude в треде - и он теперь решает сам: либо просто ответить в контексте, либо автоматически создать сессию Claude Code и делегировать задачу туда.
От алерта до PR с минимальным участием человека.
Раньше баги или отправлялись в вечный беклог, или лениво копились в "in progress" и нагружали и без того уставших разработчиков дополнительным переключением внимания.
Просто METR измеряли "дали разработчику Cursor и смотрим что будет". А Anthropic измеряли AI, встроенный в процессы разработки, скорее всего еще и с довольно строгой инженерной культурой и методами работы с этим AI.
Вот разница.
Первое, это когда вы купили дорогой инструмент и ждёте магии. А второе, это когда вы перестроили процессы и методы работы под сильные стороны AI, именно то за что я всю дорогу топлю в этом блоге.
А теперь представьте недалекое будущее:
Команда из 10 разработчиков: -> 7 фиксят техдолг, баги, клепают мелкие круд задачи → 3 синьора/техлида проектируют новое
VS
Команда ТОЛЬКО из тех самых 3 сеньоров++ с Claude: -> Claude фиксит техдолг, баги, круд (тегаешь @claude в Slack с Sentry алертами) -> 3 инженера проектируют новые фичи и решения
Производительность выше. Затраты ниже. И да, очень гурбо, но ~7 человек больше не нужны.
Эти ресурсы можно перераспределить или на маркетинг, или компенсировать за повышенное число закрываемых задач мега-сеньорам 🙂
Будем честны, AI помогает решать больше задач параллельно, но мозги все равно знатно от этого устают – никто не выкидвает инженера из цикла, ему все равно ревьювить PR от LLM и прочее.
Да, сейчас в интеграции Claude Code в слак есть баг - контекст треда не передаётся в сессию. Но это просто баг. Его исправят за неделю, максимум две.
Так что будущее вот вот наступит, да?
И это будущее не в том, чтобы дать каждому разработчику AI-ассистента и ждать не пойми чего. Ускорение генерации плохого кода мы уже проходили.
Будущее в том, чтобы встроить AI в процессы: от алерта до PR с минимальным участием человека.
Кстати, в METR исследовании не до конца понятна компетенция разработчиков в системном мышлении и работе с LLM ассистентами. Возможно, проблема не в AI, а в том, как люди с ним работают.
Даёте команде AI-инструменты и ждёте magic? Получите -19%.
Встраиваете AI в процессы? Получите +80%.
Разница не в инструментах. Разница в том, как вы их используете.
Не знаете, как это делать правильно?
Приходите на консультацию: @m0n0x41d
Please open Telegram to view this post
VIEW IN TELEGRAM
Здравствуйте дорогие подписчики! У меня для вас обещанный лонгрид, и обещаннный инструмент!
Последние несколько дней я очень взволнован и впечатлен этой штуковиной... Итак, поехали🤟
***
Я верю что часто инженеры тратят много времени на поиск надежного решения не только потому что задача сложная, но еще и потому что нет буквально освязаемой структуры, системы для мышления о такого рода задачах.
В прошлое воскресенье я участвовал в семинаре Мастерской Инженеров Менеджеров, где Анатолий Левенчук рассказывал про First Principles Framework (FPF) – гримуар системного мышления над которым он работает последние месяцы.
Я очень вдохновился и сделал Crucible Code🐸
Название крутое (ну мне так кажется), но это "просто" набор команд для Claude Code, который превращает его из отличного codding ассистента в методичного системного мыслителя.
FPF очень большой, и очень сложный. Целиком запихнуть его в рамки команд или скиллов Claude Code – невозможно. И наверное имеет мало смысла, если мы хотим чтобы Claude Code не отупел от заполнения контекста и не потерял продуктивность.
Но я сделал MVP настолько следующим FPF, насколько смог.
И знаете что? Оно работает просто 😮
Я начинал писать этот лонгрид когда была еще только первая версия Crucible Code, и в ней было еще меньше кусочков FPF... А сейчас на гитхабе последняя – 2.1.0.
В этой версии он стал ещё умнее и стабильнее.
В статье по ссылке выше можно прочитать больше, в README.md FPF – еще больше :)
Совсем в паре слов – Crucible Code это не автопилот и не очередная попытка насадить свору "специальных агентов".
Это скорее экзоскелет для наших собственных мозгов и мыслительного процесса.
А еще это память... А еще это задокументированные решения... А еще...
Пожалуйста – пробуйте, делитесь, создавайте issues в гитхабе или пишите в личку с вопросами или предложениями!
От себя добавлю – AI Assisted Engineering с Claude Code лично для меня никогда не был так хорош и качественно продуктивен, каким он становится сейчас с Crucible Code.
@m0n0x41d
Последние несколько дней я очень взволнован и впечатлен этой штуковиной... Итак, поехали
***
Я верю что часто инженеры тратят много времени на поиск надежного решения не только потому что задача сложная, но еще и потому что нет буквально освязаемой структуры, системы для мышления о такого рода задачах.
В прошлое воскресенье я участвовал в семинаре Мастерской Инженеров Менеджеров, где Анатолий Левенчук рассказывал про First Principles Framework (FPF) – гримуар системного мышления над которым он работает последние месяцы.
Я очень вдохновился и сделал Crucible Code
Название крутое (ну мне так кажется), но это "просто" набор команд для Claude Code, который превращает его из отличного codding ассистента в методичного системного мыслителя.
И вас тоже за собой по этой дорожке тянет❗️FPF очень большой, и очень сложный. Целиком запихнуть его в рамки команд или скиллов Claude Code – невозможно. И наверное имеет мало смысла, если мы хотим чтобы Claude Code не отупел от заполнения контекста и не потерял продуктивность.
Но я сделал MVP настолько следующим FPF, насколько смог.
И знаете что? Оно работает просто
ЗАМЕЧАТЕЛЬНОЯ начинал писать этот лонгрид когда была еще только первая версия Crucible Code, и в ней было еще меньше кусочков FPF... А сейчас на гитхабе последняя – 2.1.0.
В этой версии он стал ещё умнее и стабильнее.
В статье по ссылке выше можно прочитать больше, в README.md FPF – еще больше :)
Совсем в паре слов – Crucible Code это не автопилот и не очередная попытка насадить свору "специальных агентов".
Это скорее экзоскелет для наших собственных мозгов и мыслительного процесса.
Пожалуйста – пробуйте, делитесь, создавайте issues в гитхабе или пишите в личку с вопросами или предложениями!
От себя добавлю – AI Assisted Engineering с Claude Code лично для меня никогда не был так хорош и качественно продуктивен, каким он становится сейчас с Crucible Code.
@m0n0x41d
Please open Telegram to view this post
VIEW IN TELEGRAM
Crucible Code обновлен до 2.2.0 – теперь есть нормальный инсталлятор и поддержка для Cursor, Gemini CLI и Codex CLI!
Кажется что в ближайшее время обновлять уже нечего :)
Crucible Code в Gemini CLI и курсоре открывает новые горизонты для экспериментов
В первую очередь благодаря здоровенному контексту gemini-3-pro.
Можно исследовать поведение crucible со всей оригинальной спекой First Principles Framework в контексте (например прямо в GEMINI.md)
Правда это история скорее уже про более глубокие и широкие исследования, чем про прикладную разработку.
Хотя… кто знает?
🤷♂️ 🤷♂️ 🤷♂️
Первые отзывы пока делятся на две категории:
1) мне это не понятно и совсем не нужно, я и сам могу определиться с архитектурным решением
2) те кто все таки установил и дал шанс :)
А вы уже пробовали Crucible Code?
@m0n0x41d
Кажется что в ближайшее время обновлять уже нечего :)
Crucible Code в Gemini CLI и курсоре открывает новые горизонты для экспериментов
В первую очередь благодаря здоровенному контексту gemini-3-pro.
Можно исследовать поведение crucible со всей оригинальной спекой First Principles Framework в контексте (например прямо в GEMINI.md)
Правда это история скорее уже про более глубокие и широкие исследования, чем про прикладную разработку.
Хотя… кто знает?
Первые отзывы пока делятся на две категории:
1) мне это не понятно и совсем не нужно, я и сам могу определиться с архитектурным решением
2) те кто все таки установил и дал шанс :)
А вы уже пробовали Crucible Code?
@m0n0x41d
Please open Telegram to view this post
VIEW IN TELEGRAM
Кажется что в ближайшее время обновлять уже нечего 🙂
Ключевое слово – "кажется".
Crucible Code перерождается в Quint Code (еще и версия v3.1.0)! ⚗️✨
Почему смена имени?
Ну и во-первых, не хотелось толкаться seo локтями с Atlassian – оказыается есть какой то crucible-code для ревью 🙂
Во-вторых, Анатолий Игоревич Левенчук в чате прошедшего семинара очень метко определил (после моих обьяснение) этот проект как:
Это таки дистиллят FPF, отогнано примерно 5% его паттернов в форме отдельных промптов — и в жёсткой последовательности применения.
Вместе с полной спекой FPF + Gemini 3 мы пришли к имени quint – в FPF есть "Invariant Quintet", которым мой проект стремится следовать с разными степенями гарантий.
Ну и основыных фаз цилка в cru... тьфу, в quint-code тоже пять. Так тому и быть ¯\_(ツ)_/¯
Заодно с ребрендингом произошла мелкая оптимизация команд, вместо /fpf-* теперь короткие префиксы /q*
Уставшие пальцы ломаются меньше.
Ребрендинг был стоическим решением до 100 звезд на гитхабе (они растут О_О)
***
Вместе с именем приехал потнциально мощный апдейт Deep Reasoning (v3.1.0):
1. Усиливаем ролевую модель: инструкции фаз теперь принудительно переключает "режимы". До этого инъекции команд делали упор только на функциональном рассмотрении. Кажется что это мелочь, но нет – снизился шанс «yes-man» ответов, рассуждает четче и формальнее.
2. Context Slicing: Инит (/q0-init) теперь лучше сканит репозиторий, понимает стек и инфру. Если гипотеза не лезет в ваш бюджет или нарушает комплаенс - он это отловит сам, еще до того, как вы (ну или он...) начнете писать код.
Кажется (опять?!), концентрация смыслов в продукте повысилась уже где-то до ~10%. Градус растет! 📈
Но обещаю, это последний ребрендинг. Дальше только хардкор.
@m0n0x41d
У вас в компании работают два инженера, которые совершенно заслуженно занимают позиции технических лидов.
Поэтому именно они занимаются внедрением AI-решений как инноваций.
Однако возникают одни и те же проблемы: ваши AI-системы фунционируют паршиво.
Вы не можете утверждать, что ваши сотрудники некомпетентны. Но они стабильно жалуются на низкую точность системы, новые ошибки и сложность поддержки. Они винят природу LLM, говорят что «галлюцинации это норма». Жалобы не прекращаются.
А бизнес требует надежных AI решений, потому что видит: у конкурентов такие решения ЕСТЬ, и они работают. Бизнесу плевать как, но вы должны сделать так же.
Только вот два ваших техлида уже третий месяц возятся, а результата все нет.
Ваши коллеги говорят: «мы использовали ChatGPT и повысили точность. Нам кажется, что мы увеличили её примерно до 96%»
Вы слышите в этой фразе дребезг?
Во-первых, они называют API OpenAI – ChatGPT, как будто это одно и то же.
Во-вторых, им кажется, что они повысили точность. У вас нет метрик.
Вы не знаете, правда ли стало лучше или просто на тестовых примерах повезло в очередной раз ¯\_(ツ)_/¯
***
Проблема в том, что AI - это одна из самых требовательных к высокой инженерной квалификации область в широком IT.
Чтобы построить качественную AI систему часто нужно разбираться не только в системном дизайне но так же и в моделировании, проектировании сложных ролевых систем.
Только вот эти навыки раньше не были так востребованы для обычной бизнес-разработки, поэтому даже опытные и вполне себе сильные разработчики спотыкаются.
И часто непонятно: переписывать ли всю систему целиком или просто что-то конкретное изменить?
Но что?! Что надо изменить, чтобы повысилась настоящая точность, а не та, которая кажется? Где вообще искать проблему, когда два senior разработчика сами не понимают, что чинить и чего от них на самом деле хотят?
Если вы оказались в подобной ситуации – давайте разберем конкретно вашу задачу и проблемы на консультации. Посмотрим и менно и в каком порядке можно сделать, чтобы перейти от «работает иногда» к «работает предсказуемо».
Оставляйте заявки здесь
@m0n0x41d❤️
Поэтому именно они занимаются внедрением AI-решений как инноваций.
Однако возникают одни и те же проблемы: ваши AI-системы фунционируют паршиво.
Вы не можете утверждать, что ваши сотрудники некомпетентны. Но они стабильно жалуются на низкую точность системы, новые ошибки и сложность поддержки. Они винят природу LLM, говорят что «галлюцинации это норма». Жалобы не прекращаются.
А бизнес требует надежных AI решений, потому что видит: у конкурентов такие решения ЕСТЬ, и они работают. Бизнесу плевать как, но вы должны сделать так же.
Только вот два ваших техлида уже третий месяц возятся, а результата все нет.
Ваши коллеги говорят: «мы использовали ChatGPT и повысили точность. Нам кажется, что мы увеличили её примерно до 96%»
Вы слышите в этой фразе дребезг?
Во-первых, они называют API OpenAI – ChatGPT, как будто это одно и то же.
Во-вторых, им кажется, что они повысили точность. У вас нет метрик.
Вы не знаете, правда ли стало лучше или просто на тестовых примерах повезло в очередной раз ¯\_(ツ)_/¯
***
Проблема в том, что AI - это одна из самых требовательных к высокой инженерной квалификации область в широком IT.
Чтобы построить качественную AI систему часто нужно разбираться не только в системном дизайне но так же и в моделировании, проектировании сложных ролевых систем.
Только вот эти навыки раньше не были так востребованы для обычной бизнес-разработки, поэтому даже опытные и вполне себе сильные разработчики спотыкаются.
И часто непонятно: переписывать ли всю систему целиком или просто что-то конкретное изменить?
Но что?! Что надо изменить, чтобы повысилась настоящая точность, а не та, которая кажется? Где вообще искать проблему, когда два senior разработчика сами не понимают, что чинить и чего от них на самом деле хотят?
Если вы оказались в подобной ситуации – давайте разберем конкретно вашу задачу и проблемы на консультации. Посмотрим и менно и в каком порядке можно сделать, чтобы перейти от «работает иногда» к «работает предсказуемо».
Оставляйте заявки здесь
@m0n0x41d
Please open Telegram to view this post
VIEW IN TELEGRAM
Меня попросили на русском и простыми словами объяснить что такое Quint Code.
Я так увлекся что написал целый пост :)
Quint Code (в текущей стабильной версии) это набор команд для Claude Code и похожих инструментов (Cursor, Gemini и Codex CLI я тоже поддерживаю), который заставляет вас и AI думать перед тем как что-то делать.
Если совсем вкратце то это и все! ¯\_(ツ)_/¯
Проблемы дежурной работы с AI, это все те же старые интуиции людского мышления, полные спешки и когнитивных искажений – часто все выливается в то что мы просто спрашиваем у AI как что-то сделать, получаем ответ, и просто пилим.
Никаких документов не остается.
Иногда, мы как более прозорливые инженеры все таки генерируем документацию, но выходит просто красивая бумажка из памяти/контекста в духе "мы сделали это, это, то и вот это. А ну и коммит месседж вот держи".
Quint делает все чтобы заставить вас проходить строгий цикл мышления:
- сначала генерится несколько гипотез, потом их проверяем логически (вместе с AI – агент проверяет, а вы все равно ревьювитк)
- потом собираем доказательства (AI запускает локальные темты, сам же пишет их, И/ИЛИ ищет инфу в интернете)
- потом снова идет логическая проверка на предмет слабых мест
- и только потом мы принимаем решение.
Всё это сохраняется в файлы с кучей очень полезных метаданных по FPF – потом можно поднять и посмотреть почему, когда и как/что решили. Мы естественным образом получаем довольно формальную документацию, и отличный пинок для последующего вайб кодинга по этому решению (если речь про разработку).
Вайб... Вайб который мне очень нравится!
Есть еще одна фишка – принцип слабого звена. Если у вас два крутых источника и один сомнительный блог-пост, то надёжность всего решения определяется этим постом. Нет усреднения, Quint считает оценку неопределённости.
В версии 4.0(совсем скоро она будет стабильна и я релизну) будет добавлен MCP сервер с sqlite базой. Не столько для того чтобы знания копились между сессиями и можно было нормально по ним искать, сколько для усиления следованию FPF – формальные связи между решениями, уликами... Сами документы остаются в маркдаунах удобных для будущей работы с тем же агентом. MCP тут просто серьезная приправа детерминированности.
Quint хорошо работает для сложных задач.
Для быстрых фиксов и очевидных вещей это конечно же оверкилл, просто используйте Claude Code как есть.
По сути версия 3 это примерно 5% от методологии FPF, но уже покрывает процентов 90 реальных задач.
Версия 4 стремится покрывать 70-90% FPF уверенно.
Самое славное что применять Quint Code можно не только для разработки и проектирования, но и для маркетинга, исследований и вообще чего угодно – ведь это имплементация фреймворка мышления.
Мне самому в работе Quint Code уже очень сильно помогает, я буду еще писать про прикладные истории использования этого чудесного инструмента!
Присоединяйтесь к первым тестам и пишите ваши отзывы в issues на гитхабе!
Я так увлекся что написал целый пост :)
Quint Code (в текущей стабильной версии) это набор команд для Claude Code и похожих инструментов (Cursor, Gemini и Codex CLI я тоже поддерживаю), который заставляет вас и AI думать перед тем как что-то делать.
Если совсем вкратце то это и все! ¯\_(ツ)_/¯
Проблемы дежурной работы с AI, это все те же старые интуиции людского мышления, полные спешки и когнитивных искажений – часто все выливается в то что мы просто спрашиваем у AI как что-то сделать, получаем ответ, и просто пилим.
Никаких документов не остается.
Иногда, мы как более прозорливые инженеры все таки генерируем документацию, но выходит просто красивая бумажка из памяти/контекста в духе "мы сделали это, это, то и вот это. А ну и коммит месседж вот держи".
Quint делает все чтобы заставить вас проходить строгий цикл мышления:
- сначала генерится несколько гипотез, потом их проверяем логически (вместе с AI – агент проверяет, а вы все равно ревьювитк)
- потом собираем доказательства (AI запускает локальные темты, сам же пишет их, И/ИЛИ ищет инфу в интернете)
- потом снова идет логическая проверка на предмет слабых мест
- и только потом мы принимаем решение.
Всё это сохраняется в файлы с кучей очень полезных метаданных по FPF – потом можно поднять и посмотреть почему, когда и как/что решили. Мы естественным образом получаем довольно формальную документацию, и отличный пинок для последующего вайб кодинга по этому решению (если речь про разработку).
Вайб... Вайб который мне очень нравится!
Есть еще одна фишка – принцип слабого звена. Если у вас два крутых источника и один сомнительный блог-пост, то надёжность всего решения определяется этим постом. Нет усреднения, Quint считает оценку неопределённости.
В версии 4.0
Quint хорошо работает для сложных задач.
Для быстрых фиксов и очевидных вещей это конечно же оверкилл, просто используйте Claude Code как есть.
По сути версия 3 это примерно 5% от методологии FPF, но уже покрывает процентов 90 реальных задач.
Версия 4 стремится покрывать 70-90% FPF уверенно.
Самое славное что применять Quint Code можно не только для разработки и проектирования, но и для маркетинга, исследований и вообще чего угодно – ведь это имплементация фреймворка мышления.
Мне самому в работе Quint Code уже очень сильно помогает, я буду еще писать про прикладные истории использования этого чудесного инструмента!
Присоединяйтесь к первым тестам и пишите ваши отзывы в issues на гитхабе!
Несмотря на все усилия отдохнуть за новогодние праздники, я просто не устоял и откликнулся на задачку, с которой обратился один товарищ в личку на Реддите:
Начали копать, что там нормально работает, а там такое… Интересное!
На первый взгляд система написана хорошо, много важных метрик (как по учебнику).
Только вот мониторили всё, кроме главного – насколько свежие данные система реально отдаёт пользователям.
База знаний долгое время была небольшой. Но когда подписали новых клиентов – стремительно выросла до 80.000+ документов(и продолжает расти, пользователи постоянно догружают контракты и прочую сопутствующую бухгалтерию.)
Тут мы нашли архитектурный баг🐞
Раньше документов было меньше, и обновление поисковой базы делалось "в лоб" – просто пересобирали весь индекс раз в сутки ночью. Работало нормально, всех устраивало.
МVP → $$$! Какие вопросы?
На новых объёмах этот процесс стал занимать 10+ часов.
А алертов на это никто не организовал.
Так что выхоило следующее – документ обновили, например, утром, а в поиске он появится только завтра где-то к обеду! Система весь день уверенно отдаёт вчерашнюю версию...🥲
Что мы сделали:
1. Перешли на более умное обновление(инкрементальная индексация) – теперь система обрабатывает только изменённые/новые документы, а не всю базу целиком. Да, оказывается это не очевидно, или в режиме стартапов просто забывается ¯\_(ツ)_/¯
2. Добавили приоритет свежести – при прочих равных система теперь предпочитает более свежие документы
3. Настроили мониторинг устаревания – если данные начинают "протухать", команда сразу видит алерт в слаке.
Результат по первичным оценкам такой:
- Задержка обновления снизилась с ~14 часов до ~10 минут (на самом деле меньше, это пессимистическая оценка)
- Жалобы на неактуальную информацию – пока полностью пропали, ждем!
- Никаких изменений в самой AI-модели
Мораль, думаю, тут такая: RAG может ломаться не из-за плохого AI, а из-за невидимых проблем с данными, которые попросту упустили из внимания.
Если узнаёте свою ситуацию – заполняйте короткую заявку тут, разберём!
"RAG у нас работает нормально, даже отлично, но последнее время пользователи всё чаще жалуются на неактуальные ответы. Мы проверили метрики - поиск быстрый, точность высокая, достаёт вроде бы правильные документы… Только жалобы никуда не деваются, уже не знаем как дебажить"
Начали копать, что там нормально работает, а там такое… Интересное!
На первый взгляд система написана хорошо, много важных метрик (как по учебнику).
Только вот мониторили всё, кроме главного – насколько свежие данные система реально отдаёт пользователям.
База знаний долгое время была небольшой. Но когда подписали новых клиентов – стремительно выросла до 80.000+ документов
Тут мы нашли архитектурный баг
Раньше документов было меньше, и обновление поисковой базы делалось "в лоб" – просто пересобирали весь индекс раз в сутки ночью. Работало нормально, всех устраивало.
МVP → $$$! Какие вопросы?
На новых объёмах этот процесс стал занимать 10+ часов.
А алертов на это никто не организовал.
Так что выхоило следующее – документ обновили, например, утром, а в поиске он появится только завтра где-то к обеду! Система весь день уверенно отдаёт вчерашнюю версию...
Что мы сделали:
1. Перешли на более умное обновление
2. Добавили приоритет свежести – при прочих равных система теперь предпочитает более свежие документы
3. Настроили мониторинг устаревания – если данные начинают "протухать", команда сразу видит алерт в слаке.
Результат по первичным оценкам такой:
- Задержка обновления снизилась с ~14 часов до ~10 минут (на самом деле меньше, это пессимистическая оценка)
- Жалобы на неактуальную информацию – пока полностью пропали, ждем!
- Никаких изменений в самой AI-модели
Мораль, думаю, тут такая: RAG может ломаться не из-за плохого AI, а из-за невидимых проблем с данными, которые попросту упустили из внимания.
Если узнаёте свою ситуацию – заполняйте короткую заявку тут, разберём!
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему ваши промпты не работают стабильно?
А о чем вы вообще спрашиваете?
Проблема языка – один из наибольших вызовов при разработке и внедрении AI на бэкенд и в бизнес-процессы.
Когда вы последний раз не понимали какие-то части из того, что написано в документе ваших коллег?
Я – сегодня.
Точно так же и входные данные для LLM могут содержать неоднозначности.
Например, словосочетание "обработать запрос" может много чего значить.
Распарсить JSON? Валидировать входные данные? Если да, то по каким правилам? Или извлечь сущности? Сформировать ответ? В каком формате?
Вот так, по ходу разработки, мы неформально отвечаем себе на подобные вопросы связанные с "целью", и так же неформально формируем контекст.
Все неоднозначности нашего собственного понимания перетекают в промпт.
Как правило, чем специфичнее область, в которую мы пытаемся внедрить AI, тем сложнее будет добиться высокой точности в результатах.
Что с этим делать?
Хорошая новость в том, что договариваться можно. И с людьми и с языковыми моделями.
Начинайте с глоссария.
Перед тем как писать промпты (и вообще разрабатывать систему) - выпишите ключевые термины и сущности вашего домена.
Дайте им точные определения. Убедитесь что каждая сущность определяется однозначно на естественном языке.
Не "обработать запрос", а "распарсить JSON, валидировать по схеме X, извлечь поля A, B, C".
Чем точнее и формальнее язык - тем стабильнее будет результат.
Важно этот глоссарий утвердить и со своими коллегами, со всей командой, со специалистами прикладной области.
Тогда вам, как разработчику AI системы, будет проще договориться и с бизнесом, и с LLM.
***
Если вам нужна помощь на любом из шагов – от валидации идеи до проектрования архитектуры, вы можете оставить здесь заявку на консультацию.
А о чем вы вообще спрашиваете?
Проблема языка – один из наибольших вызовов при разработке и внедрении AI на бэкенд и в бизнес-процессы.
Когда вы последний раз не понимали какие-то части из того, что написано в документе ваших коллег?
Я – сегодня.
Точно так же и входные данные для LLM могут содержать неоднозначности.
Например, словосочетание "обработать запрос" может много чего значить.
Распарсить JSON? Валидировать входные данные? Если да, то по каким правилам? Или извлечь сущности? Сформировать ответ? В каком формате?
Вот так, по ходу разработки, мы неформально отвечаем себе на подобные вопросы связанные с "целью", и так же неформально формируем контекст.
Все неоднозначности нашего собственного понимания перетекают в промпт.
Как правило, чем специфичнее область, в которую мы пытаемся внедрить AI, тем сложнее будет добиться высокой точности в результатах.
Что с этим делать?
Хорошая новость в том, что договариваться можно. И с людьми и с языковыми моделями.
Начинайте с глоссария.
Перед тем как писать промпты (и вообще разрабатывать систему) - выпишите ключевые термины и сущности вашего домена.
Дайте им точные определения. Убедитесь что каждая сущность определяется однозначно на естественном языке.
Не "обработать запрос", а "распарсить JSON, валидировать по схеме X, извлечь поля A, B, C".
Чем точнее и формальнее язык - тем стабильнее будет результат.
Важно этот глоссарий утвердить и со своими коллегами, со всей командой, со специалистами прикладной области.
Тогда вам, как разработчику AI системы, будет проще договориться и с бизнесом, и с LLM.
***
Если вам нужна помощь на любом из шагов – от валидации идеи до проектрования архитектуры, вы можете оставить здесь заявку на консультацию.
Запустил автономного AI-агента на VPS.
Да, тот самый дырявый openclaw, игнорировать его не удалось🤔
Он работает 24/7, и интерфейс связи со мной – телеграм бот (удобно!)
Имя Ku и аватарку бот себе придумал сам (ну или почти сам.)
Впрочем возможно это КУ и такое 🔔
Если попытаться выделить основную его задачу... Сейчас ее можно назвать, например – "Knowledge management automation".
Ужасное имя, ничего не понятно, лучше – “AI based Exocortex”!
Но этого тоже мало, поэтому расскажу немного деталей!
Из какого функционала состоит система:
- Индексирует документы из моего Obsidian с синхронизацией каждые 15 мин (их там счет на сотни, тысячи еще вроде бы нет).
- Ещё через тот же Obsidian на сервер попадает выжимка по моей работе, собираемая с лаптопа Claude Code агентом с MCP Pieces.
- Туда же, отдельной под-директорией попадает журнал из LogSeq(я начал его использовать недавно для быстрых записей, мышления письмом по книгам и руководствам которые я изучаю. Удобнее чем raycast notes или мобильный обсидиан)
- В довесок он собирает дайджесты с arXiv, почтовых рассылок, и блогов разнообразных и уважаемых учёных – утром и вечером.
- Из всей этой красоты агент извлекает концепты и некоторым образом строит связи
- А еще – генерирует flashcards и с нормальным spaced repetition (FSRS) дважды в день проводит мне quiz-сессии, отмечая что и насколько хорошо я вспоминаю.
- Ну и наконец – Ku публикует инсайты в собственный телеграм канал @ku_notes
Инсайты тоже можно назвать "собственными", потому что у агента есть отдельные кроны/задачи для исследований/размышлений/"самопознаний", результаты которых он отслеживает и собирает в отдельной директории. Конечно не теряя доступ к моему хранилищу, и тому что он высосал из почты и блогов, но тут нет жестких ограничений – темы для исследований он выбирает сам, хотя я и могу подкидывать идейки.
Между “собственными” инсайтами бота и моей личной базой знаний есть жесткая граница. “Свои” инсайты Ku не может просто так добавлять в Obsidian – это read-only копия, и единый источник истины все еще в моем локальном репозитории.
Этот банк пополняется мной, моим мышлением письмом. На случай если Ku вдруг совершит какое-то чудо открытие и поделится им со мной, способ попасть в банк концептов / flashcard's есть лишь один – через мои мозги, через то самое мышление письмом.
***
Ещё несколько интересных решений которые вокруг/внутри этой истории работают:
1. Конечно же я сразу набил ему "голову" минимальным [FPF](https://github.com/ailev/FPF) 🙂 Ku, кстати, дистиллировал спецификацию FPF сам себе в skill-pack. Возможно я этот скилл рассмотрю ближе, и потихоньку доделаю под универсальное использование с другими агентами.
2. MemSkill-inspired память – навыки извлечения эволюционируют через фидбек. Да, это очень свежая папира, и Ku после своей сессии размышлений по FPF предложил внедрить – я помучал вопросами и одобрил! Круть!
3. Есть механизм "Состязательной рефлексии" – один процесс генерит тезисы/идеи, другой ищет контр-доказательства и критикует.
4. Pieces интеграцию стоит упомянуть еще раз (никто же поссылкам не жмет!). Pieces это local-first(с оговоркой) комбайн с визуальными модельками, который смотрит на все что вы делаете и записывает себе в память. Там есть дескопный интерфейс, и MCP – собирает вполне себе глубокий рабочий контекст. В дизайн Ku очень хорошо зашло. Ух, теперь не только для демо митов буду использоваться с запросом "Аааэээ чо я делал весь спринт кроме xyz?", теперь Ku смотрит что я делал, находит связи с кусками из дайджестов, или моими мыслями/записями/постами из Обсидиан и говорит – "Смари чо нашел, это возможно интересным образом вязано!"
Почему все это не такой уж и rocket science:
- OpenClaw даёт солидную базу автономности из коробки, не смотря на всего его несовершенства.
- Opus достаточно умён, а все процессы достаточно просты, сегрегированны и чётко описаны чтобы эффективно им следовать
- Хватает дешёвого VPS — 2cpu/4gb
- Obsidian vault = просто файловая система, а rsync, fswatch и прочие микро-автоматизации на сервере и вашем компе делаются элементарно.
Да, тот самый дырявый openclaw, игнорировать его не удалось
Он работает 24/7, и интерфейс связи со мной – телеграм бот (удобно!)
Имя Ku и аватарку бот себе придумал сам (ну или почти сам.)
Если попытаться выделить основную его задачу... Сейчас ее можно назвать, например – "Knowledge management automation".
Ужасное имя, ничего не понятно, лучше – “AI based Exocortex”!
Но этого тоже мало, поэтому расскажу немного деталей!
Из какого функционала состоит система:
- Индексирует документы из моего Obsidian с синхронизацией каждые 15 мин (их там счет на сотни, тысячи еще вроде бы нет).
- Ещё через тот же Obsidian на сервер попадает выжимка по моей работе, собираемая с лаптопа Claude Code агентом с MCP Pieces.
- Туда же, отдельной под-директорией попадает журнал из LogSeq
- В довесок он собирает дайджесты с arXiv, почтовых рассылок, и блогов разнообразных и уважаемых учёных – утром и вечером.
- Из всей этой красоты агент извлекает концепты и некоторым образом строит связи
- А еще – генерирует flashcards и с нормальным spaced repetition (FSRS) дважды в день проводит мне quiz-сессии, отмечая что и насколько хорошо я вспоминаю.
- Ну и наконец – Ku публикует инсайты в собственный телеграм канал @ku_notes
Инсайты тоже можно назвать "собственными", потому что у агента есть отдельные кроны/задачи для исследований/размышлений/"самопознаний", результаты которых он отслеживает и собирает в отдельной директории. Конечно не теряя доступ к моему хранилищу, и тому что он высосал из почты и блогов, но тут нет жестких ограничений – темы для исследований он выбирает сам, хотя я и могу подкидывать идейки.
Между “собственными” инсайтами бота и моей личной базой знаний есть жесткая граница. “Свои” инсайты Ku не может просто так добавлять в Obsidian – это read-only копия, и единый источник истины все еще в моем локальном репозитории.
Этот банк пополняется мной, моим мышлением письмом. На случай если Ku вдруг совершит какое-то чудо открытие и поделится им со мной, способ попасть в банк концептов / flashcard's есть лишь один – через мои мозги, через то самое мышление письмом.
***
Ещё несколько интересных решений которые вокруг/внутри этой истории работают:
1. Конечно же я сразу набил ему "голову" минимальным [FPF](https://github.com/ailev/FPF) 🙂 Ku, кстати, дистиллировал спецификацию FPF сам себе в skill-pack. Возможно я этот скилл рассмотрю ближе, и потихоньку доделаю под универсальное использование с другими агентами.
2. MemSkill-inspired память – навыки извлечения эволюционируют через фидбек. Да, это очень свежая папира, и Ku после своей сессии размышлений по FPF предложил внедрить – я помучал вопросами и одобрил! Круть!
3. Есть механизм "Состязательной рефлексии" – один процесс генерит тезисы/идеи, другой ищет контр-доказательства и критикует.
4. Pieces интеграцию стоит упомянуть еще раз (никто же поссылкам не жмет!). Pieces это local-first
Почему все это не такой уж и rocket science:
- OpenClaw даёт солидную базу автономности из коробки, не смотря на всего его несовершенства.
- Opus достаточно умён, а все процессы достаточно просты, сегрегированны и чётко описаны чтобы эффективно им следовать
- Хватает дешёвого VPS — 2cpu/4gb
- Obsidian vault = просто файловая система, а rsync, fswatch и прочие микро-автоматизации на сервере и вашем компе делаются элементарно.
Please open Telegram to view this post
VIEW IN TELEGRAM
Минусы – OpenClaw жутко навайбкоженый тормоз с кучей issues, часто может залипать – вроде бы асинхронные кроны, ан нет – блокируют поток gateway процесса, куча security рисков – так что надо быть очень осторожным и думать над каждой интеграцией и штукой, куда вы ему даёте доступ 🙂
Какая-то часть этих проблем сообществом починится, но о них нужно помнить. Особенно про безопасность!
---
В общем наблюдаем за экспериментом в @ku_notes – он туда пишет почаще чем я сюда😏
LLM "стилёк" конечно прослеживается, но у меня не поворачивается язык назвать последние посты откровенным слопом. Ну и эволюция блога/стиля письма/своих инструкций это одна из главных задач Ku!
p.s. Это не всё что делает Ku, но всё прочее — тайна 🤫
Какая-то часть этих проблем сообществом починится, но о них нужно помнить. Особенно про безопасность!
---
В общем наблюдаем за экспериментом в @ku_notes – он туда пишет почаще чем я сюда
LLM "стилёк" конечно прослеживается, но у меня не поворачивается язык назвать последние посты откровенным слопом. Ну и эволюция блога/стиля письма/своих инструкций это одна из главных задач Ku!
p.s. Это не всё что делает Ku, но всё прочее — тайна 🤫
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет! Я запускаю на канале (эксклюзивно в тг) новую рубрику – #не_дай_себя_одурачить
Будем разбираться с попсовыми статьями и терминами, которые ну очень уж легко разносятся разработчиками по пространству, особенно когда их публикуют авторитетные бренды (тыц раз, тыц двас)
Цель не “поругать маркетинг”, а переводить хайп на инженерный язык:
что за идеи покрыты на самом деле (и как они называлась раньше)?
что вообще реально нового?
какие предпосылки, условия должны быть истинны, чтобы это работало?
где границы применимости и какие риски вы получите, если тупо поверите на слово?
***
Зачем эта рубрика нужна? Затем что я искренне желаю вам успеха во внедрении AI в бекенд и бизнес процессы!
Ибо самая дорогая ошибка сейчас это не “не знать термин”, а строить системы по красивым статьям и утверждениям, которые не достаточно упорно проверяют собственные обещания.
p.s. первый пост сегодня чуть позже!
Будем разбираться с попсовыми статьями и терминами, которые ну очень уж легко разносятся разработчиками по пространству, особенно когда их публикуют авторитетные бренды (тыц раз, тыц двас)
Цель не “поругать маркетинг”, а переводить хайп на инженерный язык:
что за идеи покрыты на самом деле (и как они называлась раньше)?
что вообще реально нового?
какие предпосылки, условия должны быть истинны, чтобы это работало?
где границы применимости и какие риски вы получите, если тупо поверите на слово?
***
Зачем эта рубрика нужна? Затем что я искренне желаю вам успеха во внедрении AI в бекенд и бизнес процессы!
Ибо самая дорогая ошибка сейчас это не “не знать термин”, а строить системы по красивым статьям и утверждениям, которые не достаточно упорно проверяют собственные обещания.
p.s. первый пост сегодня чуть позже!
Добрый вечер!
#не_дай_себя_одурачить – Контекстные Графы!
Пост вышел чуть-чуть за рамки лимитов телеграм, поэтому милости прошу на мой сайт или на substack для иноземным языком обладающих.
TL:DR – «Контекстные графы решат проблему с организационной памятью» – одна из самых опасных полуправд в сфере AI на данный момент.
Да, они могут помочь и часто помогают (графы вообще круты!)
Но без разрешения идентификации, версионирования, контроля доступа/хранения и хотя бы какого-то подтверждения подлинности они быстро превращаются в классную машину заблуждений.
Я выделил 5 критических точек отказа и практический микро-чеклист, которым вы можете проверить себя и свой контекстный граф, прежде чем доверять ему в аудитах или рабочих процессах принятия решений.
Спасибо! 🤗
#не_дай_себя_одурачить – Контекстные Графы!
Пост вышел чуть-чуть за рамки лимитов телеграм, поэтому милости прошу на мой сайт или на substack для иноземным языком обладающих.
TL:DR – «Контекстные графы решат проблему с организационной памятью» – одна из самых опасных полуправд в сфере AI на данный момент.
Да, они могут помочь и часто помогают (графы вообще круты!)
Но без разрешения идентификации, версионирования, контроля доступа/хранения и хотя бы какого-то подтверждения подлинности они быстро превращаются в классную машину заблуждений.
Я выделил 5 критических точек отказа и практический микро-чеклист, которым вы можете проверить себя и свой контекстный граф, прежде чем доверять ему в аудитах или рабочих процессах принятия решений.
Спасибо! 🤗
Пару недель гоняю OpenClaw на VPS как полевой эксперимент: хочется понять, насколько хайповый "автономный агент" реально выдерживает многозадачность?
Ниже – наблюдения и выводы как системного инженера.
Выводы печальные. Но без разочарования! примерно этого я и ожидал.
Картина (у меня и у нескольких знакомых) повторяется. Пока у тебя 1–2 крона можно ок жить.
Как появляется N кронов – всё становится нестабильно: странные тормоза/залипания, иногда фатальные вплоть до ручного перезапуска(А — автономность).
И нет, установка в gateway параметра maxConcurrentRuns в 20 не спасает навсегда.
Кстати, почему этот параметр по умолчанию стоит в 1? Это (и другие решения решения) вызывают не смешанные, а вполне негативные чувства.
Корень зла, имхо, не столько в архитектуре, сколько в реализации – gateway слишком легко превращается в узкое горлышко и единую точку отказа.
Плюс слишком слабая само-наблюдаемость, даже после перезапуска "умный автономный агент" часто не может сам разобраться, что пошло не так и кормит нас выдумками, безосновательными предположениями.
Часть знакомых на вопрос "поставили ли вы OpenClaw?" просто пожала плечами и ответили что-то вроде:
«да я давно себе навайбкодил примерно то же самое на питоне, и бот в телегу там тоже подключен…».
Почему никто это не выкладывал в опенсорс –интересный современный антропологический вопрос!
Кажется, у многих (особенно хороших в вайбкодинге и вайб-проектировании) ребят есть такой когнитивный баг:
«да это же элементарно, каждый сам себе навайбкодит за пару часов, лол» 😄
***
Я пока продолжаю пользоваться клешнёй – есть несколько сценариев, где она реально приносит пользу, как минимум:
• авто-напоминалка / авто-опрашивалка под repetitive learning концепций из моей базы знаний
(раньше это был менее автоматизированный пайплайн: агент + микро-MCP с гибридным поиском и логикой на ноуте)
• псевдо-«умная» библиотека: сохраняет статьи/книги в память + раскладывает файлами “под себя”
и каждый вечер это всё улетает в GitHub (OpenClaw сам себя пушит)
Ну и, собственно, пока всё.
Остальное либо совсем скучно, либо тупо не всегда хорошо работает без серьезных доделок.
Кстати у меня уже больше недели в закрытой разработке свой автономный агент: многим (да немногим!) похож на OpenClaw, но с внутренними процессами, вдохновлёнными системным мышлением, и память там пытается быть first-class citizen, далеко сложнее чем агрегации маркдаун файлов с простеньким rag.
Большая часть кода готова, но времени допинать/допроверить сейчас вот вообще не хватает – хотя доделывать точно надо!
Я не обещаю, что оно будет в open source с открытой лицензией
И вот еще что, автономность штука прекрасная.
Есть ряд продовых задач, куда в той или иной степени, но автономных агентов мы давно втыкаем.
Изменил ли тут что то OpenClaw? Есть ли шанс что я когда нибудь буду использовать его для решения ответственных задач как платформу/фреймворк? Очевидный ответ – никогда. В текущей реализации – ни за что на свете 🙂
Все подобные задач лучше закрываются конкретными реализациями, чем универсальным зверем – диким и не совсем здоровым.
OpenClaw же для любого интересного и успешного использования всегда предполагает какое-то само-допиливание, а нормальных интерфейсов для такого допиливания у него пока нет.
"Skills creator" и прочее скорее задатки. До сих пор нет нормального способа жёстко задавать конкретное множество скилов/тулов для cron-агентов. Жуть.
Больше минусов, чем плюсов.
Не думаю, что без фактического переписывания OpenClaw в ближайшее время эволюционирует в адекватную базу.
Если вы ещё не мучались с этой штукой, но очень интересно – сначала спросите себя:
(1) зачем он мне на самом деле?
(2) могу ли я это мое "зачем" удовлетворитель сам навайбкодив и задеплоить как узкую автоматизацию?
Обычно ответы экономят время, нервы и вычислительные ресурсы.
Ниже – наблюдения и выводы как системного инженера.
Выводы печальные. Но без разочарования! примерно этого я и ожидал.
Картина (у меня и у нескольких знакомых) повторяется. Пока у тебя 1–2 крона можно ок жить.
Как появляется N кронов – всё становится нестабильно: странные тормоза/залипания, иногда фатальные вплоть до ручного перезапуска
И нет, установка в gateway параметра maxConcurrentRuns в 20 не спасает навсегда.
Кстати, почему этот параметр по умолчанию стоит в 1? Это (и другие решения решения) вызывают не смешанные, а вполне негативные чувства.
Корень зла, имхо, не столько в архитектуре, сколько в реализации – gateway слишком легко превращается в узкое горлышко и единую точку отказа.
Плюс слишком слабая само-наблюдаемость, даже после перезапуска "умный автономный агент" часто не может сам разобраться, что пошло не так и кормит нас выдумками, безосновательными предположениями.
Справедливости ради: в моих тестах на том же VPS Claude Code такие поломки чинит в сто крат бодрее.
Часть знакомых на вопрос "поставили ли вы OpenClaw?" просто пожала плечами и ответили что-то вроде:
«да я давно себе навайбкодил примерно то же самое на питоне, и бот в телегу там тоже подключен…».
Почему никто это не выкладывал в опенсорс –интересный современный антропологический вопрос!
Кажется, у многих (особенно хороших в вайбкодинге и вайб-проектировании) ребят есть такой когнитивный баг:
«да это же элементарно, каждый сам себе навайбкодит за пару часов, лол» 😄
***
Я пока продолжаю пользоваться клешнёй – есть несколько сценариев, где она реально приносит пользу, как минимум:
• авто-напоминалка / авто-опрашивалка под repetitive learning концепций из моей базы знаний
(раньше это был менее автоматизированный пайплайн: агент + микро-MCP с гибридным поиском и логикой на ноуте)
• псевдо-«умная» библиотека: сохраняет статьи/книги в память + раскладывает файлами “под себя”
и каждый вечер это всё улетает в GitHub (OpenClaw сам себя пушит)
Ну и, собственно, пока всё.
Остальное либо совсем скучно, либо тупо не всегда хорошо работает без серьезных доделок.
Кстати у меня уже больше недели в закрытой разработке свой автономный агент: многим (да немногим!) похож на OpenClaw, но с внутренними процессами, вдохновлёнными системным мышлением, и память там пытается быть first-class citizen, далеко сложнее чем агрегации маркдаун файлов с простеньким rag.
Большая часть кода готова, но времени допинать/допроверить сейчас вот вообще не хватает – хотя доделывать точно надо!
И вот еще что, автономность штука прекрасная.
Есть ряд продовых задач, куда в той или иной степени, но автономных агентов мы давно втыкаем.
Изменил ли тут что то OpenClaw? Есть ли шанс что я когда нибудь буду использовать его для решения ответственных задач как платформу/фреймворк? Очевидный ответ – никогда. В текущей реализации – ни за что на свете 🙂
Все подобные задач лучше закрываются конкретными реализациями, чем универсальным зверем – диким и не совсем здоровым.
OpenClaw же для любого интересного и успешного использования всегда предполагает какое-то само-допиливание, а нормальных интерфейсов для такого допиливания у него пока нет.
"Skills creator" и прочее скорее задатки. До сих пор нет нормального способа жёстко задавать конкретное множество скилов/тулов для cron-агентов. Жуть.
Больше минусов, чем плюсов.
Не думаю, что без фактического переписывания OpenClaw в ближайшее время эволюционирует в адекватную базу.
Если вы ещё не мучались с этой штукой, но очень интересно – сначала спросите себя:
(1) зачем он мне на самом деле?
(2) могу ли я это мое "зачем" удовлетворитель сам навайбкодив и задеплоить как узкую автоматизацию?
Обычно ответы экономят время, нервы и вычислительные ресурсы.
Claude Code выкатили ремоут контрол.
Подмяли еще одну oss фичу разных утилит, которые работали с переменным успехом (вроде этой жути)
Вообще хорошо! вам больше не нужны ngrok туннели и прочее sshd безобразие на рабочей станции, чтобы отойти от нее и продолжить работу в том же окружении.
Вектор безопасности, как принято, мало кого интересует, но сандбоксинг файловой системы там все таки есть!
Кто там mac mini для опенкло купил? Вот теперь будет дополнительный толк)))
Отключаете сандбоксинг и через одну сессию ремоут контрола управляете всем чем хотите😕
CC не хочет нас отпускать в Codex App, коллеги!
Подмяли еще одну oss фичу разных утилит, которые работали с переменным успехом (вроде этой жути)
Вообще хорошо! вам больше не нужны ngrok туннели и прочее sshd безобразие на рабочей станции, чтобы отойти от нее и продолжить работу в том же окружении.
Вектор безопасности, как принято, мало кого интересует, но сандбоксинг файловой системы там все таки есть!
Кто там mac mini для опенкло купил? Вот теперь будет дополнительный толк)))
Отключаете сандбоксинг и через одну сессию ремоут контрола управляете всем чем хотите
CC не хочет нас отпускать в Codex App, коллеги!
Please open Telegram to view this post
VIEW IN TELEGRAM
В следующую пятницу в час дня по мск будем с Родионом разбираться что такое FPF, как его применять в программной разработке (и вообще как применять)!
Вспомним quint-code и другие потуги загнать FPF понятия и методы в прикладные утилиты.
Добавляйте в календарь!
Вспомним quint-code и другие потуги загнать FPF понятия и методы в прикладные утилиты.
Добавляйте в календарь!
GitHub
GitHub - ailev/FPF: First Principles Framework (FPF): Pattern language and core specification for admissible action in problematic…
First Principles Framework (FPF): Pattern language and core specification for admissible action in problematic engineering, research, and mixed human/AI work. - ailev/FPF
Добрый день уважаемые подписчики!
Завтрашний стрим с Родионом пришлось перенести на понедельник, будет в то же время – 13:00 по МСК (должна быть запись 🙂
А еще на этой неделе на ту же тему мы записали подкаст с Александром Пахомовым (@toxic_enterprise), но немного с другого ракурса – более концептуального чтоли. Должен выйти в течении 1-2 недель.
С Родионом же мы постараемся сфокусироваться на прикладном применении FPF (хотя это сложно, еще и в сжатые сроки стрима😨 ), повторюсь про разные попытки притянуть FPF в агентскую разработку, почему они провалились и что с этим всем делать дальше.
А еще в понедельник после стрима будет дроп документа вроде небольшой методички, в которой будут все ссылки и описание основных подходов работы с FPF полезных для инженерных и инжерено-менеджерских задач💖
Завтрашний стрим с Родионом пришлось перенести на понедельник, будет в то же время – 13:00 по МСК (должна быть запись 🙂
А еще на этой неделе на ту же тему мы записали подкаст с Александром Пахомовым (@toxic_enterprise), но немного с другого ракурса – более концептуального чтоли. Должен выйти в течении 1-2 недель.
С Родионом же мы постараемся сфокусироваться на прикладном применении FPF (хотя это сложно, еще и в сжатые сроки стрима
А еще в понедельник после стрима будет дроп документа вроде небольшой методички, в которой будут все ссылки и описание основных подходов работы с FPF полезных для инженерных и инжерено-менеджерских задач
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет!
Во-первых – поздравляю всех девушек с Международным женским днём!🪷
Во-вторых, и к сожалению – мы вынуждены снова переносить стрим с Родионом…
Потому что у меняпроклятый ковид и отпускать он меня не планирует, особенно если я не начну отдыхать 😳
я был готов вещать через сопли и кашель, но голос разума Родиона остановил безумие😎
Предварительная дата – +1 понедельник (16 марта).
Ставь Гарольда если переносы надоели🥲
Во-первых – поздравляю всех девушек с Международным женским днём!
Во-вторых, и к сожалению – мы вынуждены снова переносить стрим с Родионом…
Потому что у меня
я был готов вещать через сопли и кашель, но голос разума Родиона остановил безумие
Предварительная дата – +1 понедельник (16 марта).
Ставь Гарольда если переносы надоели
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Лаборатория Математики и Программирования Сергея Бобровского
Супер-синхронизм: мой конца февраля пост про DSL
"как нейронки агенты использовать, чтобы писать в 1000 раз компактный код (любые технологии фреймворки, не важно), и чтобы человек уровня миддл мог реализовывать проекты любой сложности, сохраняя её рост линейным."
А 4 марта выходит мощный пейпер "A Generalized Algebraic Theory for Type Theory with Explicit Universe Polymorphism" учёных четырёх европейских университетов (я уже говорил не раз, что все годы придерживаюсь подходов именно европейской школы computer science, она сегодня топчик). Это математическая теория для создания DSL, и при этом строго в рамках теории типов! В самой статье DSL не упоминается, это как-то слишком приземлённо, но разбирается именно это, просто на более высоких уровнях абстракции.
Конкретную программу пишем на DSL, и этот язык предметной области формально описывается мета-системой (GAT из статьи), которая описывается мета-мета-системой (Алан Кэй: "Lisp isn't a language, it's a building material").
И вот наконец данная работа развивает эту идею до математического абсолюта: GAT/CwF позволяют создавать языки с формально доказанными свойствами, и отсюда мы попадаем и в существенно облегчённую формальную верификацию, и суперпродуктивную работу с нейронками, которые так здорово понимают лингвистически формализованные бизнес-темы, генеря реально хороший код.
Алан Кэй мечтал о системах, где:
- всё есть язык (объекты общаются сообщениями);
- можно менять систему на лету (мета-программирование);
- система может описывать саму себя.
Пейпер добавляет к этому:
- система может математически доказать свою корректность;
- любой DSL, описанный в этом мета-языке, наследует все эти гарантии!
Это мета-инструмент для создания инструментов -- способ легко и просто делать языки/фреймворки, в которых ошибки (включая ошибки кодогенерации нейронками) невозможны в принципе!
=
Сама статья даёт категорный взгляд на синтаксис и правила вывода, позволяющий строить т.н. "начальные" модели и доказывать их единственность через общую алгебраическую теорию (GAT) (в рамках MLTT например). "Начальные" - это по сути математический объект, где синтаксис языка (то, что пишет программист) однозначно соответствует его семантике (тому, что происходит при выполнении).
Обобщение многосортных алгебраических теорий: сорта и операторы могут иметь зависимые типы, позволяет описывать синтаксис и правила типизации как сигнатуру с уравнениями.
CwF (Category with Families): категориальная модель зависимых типов.
Индексация уровнями, уровни вселенных организуются как untyped cwf (явный полиморфизм). Вы же помните мой трек по HoTT? :)
Каждая теория представляется как GAT. Синтаксис -- это начальная модель. Категориальная абстракция устраняет зависимость от конкретных правил вывода. Связь с Second-Order Generalised Algebraic Theories, Quotient Inductive-Inductive Types, Logical Frameworks...
Метод применим вообще к любым формальным дедуктивным системам!!
=
Когда вы пишете DSL на Racket или Scala, RoR или Haskell, вы полагаетесь на свой опыт, тесты и code review, и всё. Даже в Template Haskell нету гарантий корректности.
Когда мы описываем DSL через GAT (как в статье), мы получаем
- математическую гарантию, что наш DSL корректен;
- автоматическую верификацию всех программ на этом DSL;
- наследование свойств через иерархию мета-уровней.
Это и есть та самая "meta-system" Алана Кэя, доведённая до логического и математического совершенства.
"как нейронки агенты использовать, чтобы писать в 1000 раз компактный код (любые технологии фреймворки, не важно), и чтобы человек уровня миддл мог реализовывать проекты любой сложности, сохраняя её рост линейным."
А 4 марта выходит мощный пейпер "A Generalized Algebraic Theory for Type Theory with Explicit Universe Polymorphism" учёных четырёх европейских университетов (я уже говорил не раз, что все годы придерживаюсь подходов именно европейской школы computer science, она сегодня топчик). Это математическая теория для создания DSL, и при этом строго в рамках теории типов! В самой статье DSL не упоминается, это как-то слишком приземлённо, но разбирается именно это, просто на более высоких уровнях абстракции.
Конкретную программу пишем на DSL, и этот язык предметной области формально описывается мета-системой (GAT из статьи), которая описывается мета-мета-системой (Алан Кэй: "Lisp isn't a language, it's a building material").
И вот наконец данная работа развивает эту идею до математического абсолюта: GAT/CwF позволяют создавать языки с формально доказанными свойствами, и отсюда мы попадаем и в существенно облегчённую формальную верификацию, и суперпродуктивную работу с нейронками, которые так здорово понимают лингвистически формализованные бизнес-темы, генеря реально хороший код.
Алан Кэй мечтал о системах, где:
- всё есть язык (объекты общаются сообщениями);
- можно менять систему на лету (мета-программирование);
- система может описывать саму себя.
Пейпер добавляет к этому:
- система может математически доказать свою корректность;
- любой DSL, описанный в этом мета-языке, наследует все эти гарантии!
Это мета-инструмент для создания инструментов -- способ легко и просто делать языки/фреймворки, в которых ошибки (включая ошибки кодогенерации нейронками) невозможны в принципе!
=
Сама статья даёт категорный взгляд на синтаксис и правила вывода, позволяющий строить т.н. "начальные" модели и доказывать их единственность через общую алгебраическую теорию (GAT) (в рамках MLTT например). "Начальные" - это по сути математический объект, где синтаксис языка (то, что пишет программист) однозначно соответствует его семантике (тому, что происходит при выполнении).
Обобщение многосортных алгебраических теорий: сорта и операторы могут иметь зависимые типы, позволяет описывать синтаксис и правила типизации как сигнатуру с уравнениями.
CwF (Category with Families): категориальная модель зависимых типов.
Индексация уровнями, уровни вселенных организуются как untyped cwf (явный полиморфизм). Вы же помните мой трек по HoTT? :)
Каждая теория представляется как GAT. Синтаксис -- это начальная модель. Категориальная абстракция устраняет зависимость от конкретных правил вывода. Связь с Second-Order Generalised Algebraic Theories, Quotient Inductive-Inductive Types, Logical Frameworks...
Метод применим вообще к любым формальным дедуктивным системам!!
=
Когда вы пишете DSL на Racket или Scala, RoR или Haskell, вы полагаетесь на свой опыт, тесты и code review, и всё. Даже в Template Haskell нету гарантий корректности.
Когда мы описываем DSL через GAT (как в статье), мы получаем
- математическую гарантию, что наш DSL корректен;
- автоматическую верификацию всех программ на этом DSL;
- наследование свойств через иерархию мета-уровней.
Это и есть та самая "meta-system" Алана Кэя, доведённая до логического и математического совершенства.
Forwarded from AI-Driven Development. Родион Мостовой
Сегодня в 13:00 по МСК мы проводим митап как раз на тему системного мышления и его применения в SDD - Иван Закутный (@neuralstack) расскажет нам про FPF (First Principle Framework) операционную систему мышления для LLM и как он на основе FPF сделал обвязку для Claude Code, набравшую более 1000 звёзд на GitHub.
Добавляйте встречу в календарь, чтобы не пропустить: https://luma.com/z0hnbsnl
Добавляйте встречу в календарь, чтобы не пропустить: https://luma.com/z0hnbsnl
fpf_meet_notes.md
16.6 KB
Ну вот и прошел наш стрим! Как мне кажется вышло вполне не плохо!
Мы отошли в некоторой степени (примерно на половину) от моего плана, но все равно получилось здорово!
Отдельное спасибо Анатолию Игоревичу за поддержку в чате! Про FPF и системное мышление очень тяжело говорить, особенно когда ты далеко от хотя бы какой то квалификации в последнем🙏
Для всех кто слушал подкаст, вот обещанная "методичка", а на самом деле минимальная напоминалка об FPF и шаги с которых вы можете начать прямо сегодня.
На днях я дополнительно напишу пост, проговорю все что хотел по плану стрима, плюс планы на сам quint-code – почему я его воскрешаю и как думаю его развивать!
***
Подписывайтесь на Канал Родиона AI-Driven Development
Забирайте FPF Simple Skill
Пробуйте Quint Code
Оригинал FPF Спецификации Анатолия Левенчука
Больше ссылок, напоминалки и примеры промптов в прикрепленном маркдауне.
stay tuned как говорится, и спасибо за ваше внимание 💖
Мы отошли в некоторой степени (примерно на половину) от моего плана, но все равно получилось здорово!
Отдельное спасибо Анатолию Игоревичу за поддержку в чате! Про FPF и системное мышление очень тяжело говорить, особенно когда ты далеко от хотя бы какой то квалификации в последнем
Для всех кто слушал подкаст, вот обещанная "методичка", а на самом деле минимальная напоминалка об FPF и шаги с которых вы можете начать прямо сегодня.
На днях я дополнительно напишу пост, проговорю все что хотел по плану стрима, плюс планы на сам quint-code – почему я его воскрешаю и как думаю его развивать!
***
Подписывайтесь на Канал Родиона AI-Driven Development
Забирайте FPF Simple Skill
Пробуйте Quint Code
Оригинал FPF Спецификации Анатолия Левенчука
Больше ссылок, напоминалки и примеры промптов в прикрепленном маркдауне.
stay tuned как говорится, и спасибо за ваше внимание 💖
Please open Telegram to view this post
VIEW IN TELEGRAM