Forwarded from Aleksei
решил тоже по мотивам выложить свои юзабельные скиллы
openai-api - GPT, DALL-E, Whisper, o1/o3/o4 reasoning
npx skills add diskd-ai/openai-api
claude-api - Anthropic Messages API, vision, extended thinking
npx skills add diskd-ai/claude-api
gemini-api - Gemini 3, Nano Banana, Veo video, Lyria music
npx skills add diskd-ai/gemini-api
groq-api - Ultra-fast inference (300-1000+ tok/s)
npx skills add diskd-ai/groq-api
cerebras-api - World's fastest inference (2000+ tok/s)
npx skills add diskd-ai/cerebras-api
together-api - 200+ open-source models, FLUX, DeepSeek
npx skills add diskd-ai/together-api
prompting - Prompt engineering for any LLM
npx skills add diskd-ai/prompting
openai-api - GPT, DALL-E, Whisper, o1/o3/o4 reasoning
npx skills add diskd-ai/openai-api
claude-api - Anthropic Messages API, vision, extended thinking
npx skills add diskd-ai/claude-api
gemini-api - Gemini 3, Nano Banana, Veo video, Lyria music
npx skills add diskd-ai/gemini-api
groq-api - Ultra-fast inference (300-1000+ tok/s)
npx skills add diskd-ai/groq-api
cerebras-api - World's fastest inference (2000+ tok/s)
npx skills add diskd-ai/cerebras-api
together-api - 200+ open-source models, FLUX, DeepSeek
npx skills add diskd-ai/together-api
prompting - Prompt engineering for any LLM
npx skills add diskd-ai/prompting
1👍8
⚪️ LENNY's Product Pass
(Вниманию подписчиков этого сабжа)
Напоминание: 29 января дедлайн активации кодов! Надо успеть все зарегать.
Кроме того - на днях там в обычный тир добавили Amp, Droid, PostHog, Railway. Посмотрите еще раз вашу подписку!
Для остальных: речь про
🔗 https://lennysproductpass.com/
Я летом брал тариф за $200. Все работает - много кодов вот только активировал! На год.
(Вниманию подписчиков этого сабжа)
Напоминание: 29 января дедлайн активации кодов! Надо успеть все зарегать.
Кроме того - на днях там в обычный тир добавили Amp, Droid, PostHog, Railway. Посмотрите еще раз вашу подписку!
Для остальных: речь про
🔗 https://lennysproductpass.com/
Я летом брал тариф за $200. Все работает - много кодов вот только активировал! На год.
👍6
⚪️ CC : async hooks
Еще один способ скручивать сложные воркфлоу на СС. Теперь хуки могут быть асинхронными, и не блокировать работу.
🔗 https://x.com/bcherny/status/2015524460481388760?s=20
Интеерсно как команда СС вкидывает фичи и смотрит что приживется!
▶️ Кстати, накануне скиллы скушали кастомные слеш команды - я так понял. Теперь это одно и то же
▶️ Все развивается очень стремительно, но не всегдя ясно - куда, и не всегда понятно - зачем.
@deksden_notes
Еще один способ скручивать сложные воркфлоу на СС. Теперь хуки могут быть асинхронными, и не блокировать работу.
🔗 https://x.com/bcherny/status/2015524460481388760?s=20
Интеерсно как команда СС вкидывает фичи и смотрит что приживется!
▶️ Кстати, накануне скиллы скушали кастомные слеш команды - я так понял. Теперь это одно и то же
▶️ Все развивается очень стремительно, но не всегдя ясно - куда, и не всегда понятно - зачем.
@deksden_notes
👍5💯1
⚪️ Codex plan-mode
Ну - вроде начинает выкатываться планмод. В твиттерах уже разбор фич
В config.toml ставим в секцию [features]
Переключаемся стандартной Shift-Tab.
Выход - после одобрения плана и прекращаия итераций.
Кодекс задает вопросы, есть встроенный инструмент для ответа на вопросы. Есть рекомендованная опция. Есть возможность заметку к вопросу текстом написать. Норм сделано
Пишут что план делает codex-5.2-high принудительно. хм. ну - посмотрим!
Особого релиза фичи пока не было - это все бэта и экспериментально!
Прогресс мне нравится. Скоро тулинд до СС времени лета этого года дотянут! отставание уже не год
@deksden_notes
Ну - вроде начинает выкатываться планмод. В твиттерах уже разбор фич
В config.toml ставим в секцию [features]
collab=true
collaboration_modes=true
Переключаемся стандартной Shift-Tab.
Выход - после одобрения плана и прекращаия итераций.
Кодекс задает вопросы, есть встроенный инструмент для ответа на вопросы. Есть рекомендованная опция. Есть возможность заметку к вопросу текстом написать. Норм сделано
Пишут что план делает codex-5.2-high принудительно. хм. ну - посмотрим!
Особого релиза фичи пока не было - это все бэта и экспериментально!
Прогресс мне нравится. Скоро тулинд до СС времени лета этого года дотянут! отставание уже не год
@deksden_notes
👍4❤🔥1😁1
⚪️ Экономическое - подписки и токены
Тут про экономику СС появились материалы
• https://t.me/denissexy/11173
• https://she-llac.com/claude-limits
Скажу свои наблюдения про экономику на кодексе:
• текущий январь - $20B токенов, в апи ценах на $5.6k
• потратил в пределах $200, ну - если считать более философски (со смежными подписками для этого объема работы) то $250;
• если кредтами работать - трачу 500-900 кредитов в день, что примерно $30. Получается $1k в месяц, что все равно выгоднее апи, но сильно проигрывает подпискам
Вывод: подписки рулят 🔥
Не хватает пользования - берите +1 аккаунт, а не апи/кредиты.
@deksden_notes
Тут про экономику СС появились материалы
• https://t.me/denissexy/11173
• https://she-llac.com/claude-limits
Скажу свои наблюдения про экономику на кодексе:
• текущий январь - $20B токенов, в апи ценах на $5.6k
• потратил в пределах $200, ну - если считать более философски (со смежными подписками для этого объема работы) то $250;
• если кредтами работать - трачу 500-900 кредитов в день, что примерно $30. Получается $1k в месяц, что все равно выгоднее апи, но сильно проигрывает подпискам
Вывод: подписки рулят 🔥
Не хватает пользования - берите +1 аккаунт, а не апи/кредиты.
@deksden_notes
👍6🗿3🥰2
⚪️ Краб опасносте! 🦀
🛑 Народ ставит Крабобота ClaudBot в VPS в открытом интернете и без норм безопасности, оставляя дыры - открытые порты без auth. Так не надо
🔗 https://x.com/0xSammy/status/2015562918151020593?s=20
🔗 https://x.com/fmdz387/status/2015551454593896829?s=20
👉 Проблема и фиксы в тредах.
‼️ Кто гоняет краба - обратите внимание! @almazom
@deksden_notes
🛑 Народ ставит Крабобота ClaudBot в VPS в открытом интернете и без норм безопасности, оставляя дыры - открытые порты без auth. Так не надо
🔗 https://x.com/0xSammy/status/2015562918151020593?s=20
🔗 https://x.com/fmdz387/status/2015551454593896829?s=20
👉 Проблема и фиксы в тредах.
‼️ Кто гоняет краба - обратите внимание! @almazom
@deksden_notes
X (formerly Twitter)
0xSammy (@0xSammy) on X
923 Clawdbot gateways are exposed right now with zero auth (they just connect to your IP and are in)
That means shell access, browser automation, API keys.
All wide open for someone to have full control of your device.
Had Clawdbot check my setup:
-…
That means shell access, browser automation, API keys.
All wide open for someone to have full control of your device.
Had Clawdbot check my setup:
-…
😱3✍2🔥2🤣2👏1
⚪️ Codex new features
Там на днях sama объявил, что кодекс ждут много дополнительных фич.
Давайте погадаем - чего ожидать?
• план-мод практически дождались. Неплохо, не без глюков - но сделано вполне удобно. Рисёчем доработают и будет ок
• сварм вроде как делается, но это тонкая штука плюс лимиты кушает на раз! запускать такое без роста лимитов - ну хз. Акки на 20 баксов будут не за 1.5 часа отлетать, а за 15 минут.
❓ А что еще нас ждет? Есть мысли / идеи?
❓ Какие то персональные хотелки?
@deksden_notes
Там на днях sama объявил, что кодекс ждут много дополнительных фич.
Давайте погадаем - чего ожидать?
• план-мод практически дождались. Неплохо, не без глюков - но сделано вполне удобно. Рисёчем доработают и будет ок
• сварм вроде как делается, но это тонкая штука плюс лимиты кушает на раз! запускать такое без роста лимитов - ну хз. Акки на 20 баксов будут не за 1.5 часа отлетать, а за 15 минут.
❓ А что еще нас ждет? Есть мысли / идеи?
❓ Какие то персональные хотелки?
@deksden_notes
❤🔥2👍1
⚪️ Статистика и модели
Я тут смотрел свою статистику по пользованию кодексом и нашел интересные моменты
Смотрим ноябрь / январь. На вход почти одинаковое количество токенов: 500m
на выход - довольно больщое отличие - 15B / 21B. Это +30%
И ризонинг: было 16m / стало 50m - это x3!
Вот вам и разница поколений 5/5.1 vs 5.2
Январь у меня почти исключительно gpt-5.2 high
Я тут смотрел свою статистику по пользованию кодексом и нашел интересные моменты
Смотрим ноябрь / январь. На вход почти одинаковое количество токенов: 500m
на выход - довольно больщое отличие - 15B / 21B. Это +30%
И ризонинг: было 16m / стало 50m - это x3!
Вот вам и разница поколений 5/5.1 vs 5.2
Январь у меня почти исключительно gpt-5.2 high
❤5🔥5
⚪️ Git flow для агентов / оркестраторов
А кто какой git flow пользует?
я вот в dd-flow оркестраторе по-умолчанию пока запилил так:
• ветки main / develop (как trunk)
• локальным merge train в develop который dd-flow гоняет.
• Ветка Develop управляется только оркестратором, он один туда коммитит.
• релизы путем PR в main, c автомержем
Итог: имею стабильно работающий merge train инттеграции фича-бранчей в develop. Релизы делаем когда накопится нужное количество фичей в develop.
Такой флоу понятный/простой? у кого как?
А кто какой git flow пользует?
я вот в dd-flow оркестраторе по-умолчанию пока запилил так:
• ветки main / develop (как trunk)
• локальным merge train в develop который dd-flow гоняет.
• Ветка Develop управляется только оркестратором, он один туда коммитит.
• релизы путем PR в main, c автомержем
Итог: имею стабильно работающий merge train инттеграции фича-бранчей в develop. Релизы делаем когда накопится нужное количество фичей в develop.
Такой флоу понятный/простой? у кого как?
❤🔥1👍1
⚪️ REMOTE tools
"По заявкам телезрителей" зашарю свою подборку средств "удаленной" работы с агентами
* Road Runner (Easily sync code to a remote machine and run commands there. That's it) : https://github.com/rileyhilliard/rr
* VibeTunnel (Turn any browser into your terminal & command your agents on the go.) :
https://github.com/amantus-ai/vibetunnel
https://vibetunnel.sh/
* Happy (Mobile and Web client for Codex and Claude Code, with realtime voice, encryption and fully featured) :
https://github.com/slopus/happy
https://happy.engineering/docs/how-it-works/
* WebTMUX (Web-based terminal with tmux-specific features) : https://github.com/chrismccord/webtmux
* Outray (OutRay is an open-source ngrok alternative that makes it easy to expose your local development server to the internet via secure tunnels) : https://outray.dev/
* Remoto (Remoto creates a secure tunnel between your terminal and your phone. When you run the CLI, it spawns a local shell session and connects to our relay server via WebSocket) : https://www.remoto.sh/
* Takopi (Takopi runs coding agents on your computer and bridges them to Telegram. Send tasks from anywhere, watch progress stream live, pick up when back at the terminal. Scale from quick one-offs to multi-project workflows with topics and parallel worktrees): https://takopi.dev/tutorials/
* Ag3ntum: a general-purpose agent wwith security in mind (Secured CC shell with remote access via web) : https://github.com/extractumio/ag3ntum
(ц) Ынжой
@deksden_notes
"По заявкам телезрителей" зашарю свою подборку средств "удаленной" работы с агентами
* Road Runner (Easily sync code to a remote machine and run commands there. That's it) : https://github.com/rileyhilliard/rr
* VibeTunnel (Turn any browser into your terminal & command your agents on the go.) :
https://github.com/amantus-ai/vibetunnel
https://vibetunnel.sh/
* Happy (Mobile and Web client for Codex and Claude Code, with realtime voice, encryption and fully featured) :
https://github.com/slopus/happy
https://happy.engineering/docs/how-it-works/
* WebTMUX (Web-based terminal with tmux-specific features) : https://github.com/chrismccord/webtmux
* Outray (OutRay is an open-source ngrok alternative that makes it easy to expose your local development server to the internet via secure tunnels) : https://outray.dev/
* Remoto (Remoto creates a secure tunnel between your terminal and your phone. When you run the CLI, it spawns a local shell session and connects to our relay server via WebSocket) : https://www.remoto.sh/
* Takopi (Takopi runs coding agents on your computer and bridges them to Telegram. Send tasks from anywhere, watch progress stream live, pick up when back at the terminal. Scale from quick one-offs to multi-project workflows with topics and parallel worktrees): https://takopi.dev/tutorials/
* Ag3ntum: a general-purpose agent wwith security in mind (Secured CC shell with remote access via web) : https://github.com/extractumio/ag3ntum
(ц) Ынжой
@deksden_notes
GitHub
GitHub - rileyhilliard/rr: Easily sync code to a remote machine and run commands there. That's it.
Easily sync code to a remote machine and run commands there. That's it. - rileyhilliard/rr
👍9🔥4❤🔥1❤1🥰1
⚪️ Kimi k2.5
Обзоры и отзывы все видели, да?
Скажу только - это НЕ ДУМАЮЩАЯ версия, и у нее такие неплохие бенчмарки. Думаю, к НГ выйдет думающая, и будет рвать как тузик грелку.
Думаете, уже лучше соннета 4.5? Или ждем думающую?
Нужны свои Evals, конечно ...
@deksden_notes
Обзоры и отзывы все видели, да?
Скажу только - это НЕ ДУМАЮЩАЯ версия, и у нее такие неплохие бенчмарки. Думаю, к НГ выйдет думающая, и будет рвать как тузик грелку.
Думаете, уже лучше соннета 4.5? Или ждем думающую?
Нужны свои Evals, конечно ...
@deksden_notes
👀3🔥2
⚪️ Google AI Pro / Ultra
Добавили GCP Кредиты. Немного, но - приятно! На тесты хватит даже ai pro.
@deksden_notes
Добавили GCP Кредиты. Немного, но - приятно! На тесты хватит даже ai pro.
@deksden_notes
👍2
⚪️ Jules : пачка апдейтов, январь 2026
Жульес разродился пачкой апдейтов:
👉 Апдейты в АПИ: Апи поддерживает задачи без репозитория (🔥!!!) То есть мы получаем машину в облаке, с ИИ агентом, с node/bun/python/rust.
👉 От апи теперь можно получить пачку изменений в файлах, которые сделала задача
👉 по мелочи - запланированные задачки теперь редактируются
👉 Critic for Plan. Жульес добавил критика для плана. Говорят о повышении качества на 9.5% (drop in task failure rates) Верификация рулит, тут я согласен полностью )
👉 В фоне можно анализировать оптимизации производительности проекта
Жульес разродился пачкой апдейтов:
👉 Апдейты в АПИ: Апи поддерживает задачи без репозитория (🔥!!!) То есть мы получаем машину в облаке, с ИИ агентом, с node/bun/python/rust.
👉 От апи теперь можно получить пачку изменений в файлах, которые сделала задача
👉 по мелочи - запланированные задачки теперь редактируются
👉 Critic for Plan. Жульес добавил критика для плана. Говорят о повышении качества на 9.5% (drop in task failure rates) Верификация рулит, тут я согласен полностью )
👉 В фоне можно анализировать оптимизации производительности проекта
👍5🔥2
⚪️ Agentic Vision
Вот и зрение у моделей уже не простое, а агентное. Модель пишет код, и итеративно им исследует изображение. В блоге примеры!
🔗 https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash
Следующий шаг, из очевидных - swarm vision, видимо.
Но как проактивные агентные техники развились то? RAG трещит под напором агентного поиска. И тут - буст 5-10% в бенчах зрения. Для табличек и прочей регулярной информации, с которой агенты справлялись плохо - вообще будет мощный плюс! А если рассматривать картинку не просто внутри thinking блока одного запроса, а действительно агентный цикл зафигачить? Еще и свармом для скорости? чтобы сегментировало, рассматривало в отдельности , кропало, трансформировало, улучшало, и прочее?..
Интересная штука, конечно.
▶️ Upd 1: А вы же обратили внимание, что это Флеш3, а не Про? ) Что характерно
@deksden_notes
Вот и зрение у моделей уже не простое, а агентное. Модель пишет код, и итеративно им исследует изображение. В блоге примеры!
🔗 https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash
Следующий шаг, из очевидных - swarm vision, видимо.
Но как проактивные агентные техники развились то? RAG трещит под напором агентного поиска. И тут - буст 5-10% в бенчах зрения. Для табличек и прочей регулярной информации, с которой агенты справлялись плохо - вообще будет мощный плюс! А если рассматривать картинку не просто внутри thinking блока одного запроса, а действительно агентный цикл зафигачить? Еще и свармом для скорости? чтобы сегментировало, рассматривало в отдельности , кропало, трансформировало, улучшало, и прочее?..
Интересная штука, конечно.
▶️ Upd 1: А вы же обратили внимание, что это Флеш3, а не Про? ) Что характерно
@deksden_notes
Google
Introducing Agentic Vision in Gemini 3 Flash
Agentic Vision, a new capability introduced in Gemini 3 Flash, converts image understanding from a static act into an agentic process
1🔥6
⚪️ 11Labs для стартапов - free grant
У илэвенов есть такая программа:
🔗 https://elevenlabs.io/startup-grants
Дают гранты стартапам на 12 месяцев, по заявке. Рассматривают неделю. Кредиты зачисляют на аккаунт с которого давали заявку!
условия:
Monetized product use case: The goal of the ElevenLabs Grants is to help new and nascent products and business models powered by AI voices take off without too much start up cost. As such, only applications with a business or monetization strategy should apply. Only applications with valid business emails will be considered.
No short-term or one-off projects: Grants will only be awarded to companies seeking to build products they intend to take to market for the long term. One-off projects and campaigns will not be considered.
No projects for minors: We are unable to award grants to companies that are building projects for children aged 18 or under.
Startups and small companies only: The ElevenLabs Grants program is open to all startups or companies with less than 25 employees at the time of receiving the application.
One application per company: Each company can only submit one application. If you have multiple companies (rock on!) you can submit one application for each company. Existing enterprise customers are not eligible for grants.
Terms of receipt: If awarded a Grant, the company must agree to display "ElevenLabs Grants" logo at the bottom of their website, and include a link to the ElevenLabs website for at least twelve (12) months from the date of grant approval.
——
🟢 Прикольно, кмк
(ц) Такое мы ценим
@deksden_notes
У илэвенов есть такая программа:
🔗 https://elevenlabs.io/startup-grants
Дают гранты стартапам на 12 месяцев, по заявке. Рассматривают неделю. Кредиты зачисляют на аккаунт с которого давали заявку!
условия:
Monetized product use case: The goal of the ElevenLabs Grants is to help new and nascent products and business models powered by AI voices take off without too much start up cost. As such, only applications with a business or monetization strategy should apply. Only applications with valid business emails will be considered.
No short-term or one-off projects: Grants will only be awarded to companies seeking to build products they intend to take to market for the long term. One-off projects and campaigns will not be considered.
No projects for minors: We are unable to award grants to companies that are building projects for children aged 18 or under.
Startups and small companies only: The ElevenLabs Grants program is open to all startups or companies with less than 25 employees at the time of receiving the application.
One application per company: Each company can only submit one application. If you have multiple companies (rock on!) you can submit one application for each company. Existing enterprise customers are not eligible for grants.
Terms of receipt: If awarded a Grant, the company must agree to display "ElevenLabs Grants" logo at the bottom of their website, and include a link to the ElevenLabs website for at least twelve (12) months from the date of grant approval.
——
🟢 Прикольно, кмк
(ц) Такое мы ценим
@deksden_notes
ElevenLabs
Build AI voices into your product with our Grants program
Integrate AI voices into your new product or startup and earn free usage plans and early access to new features
⚪️ Статистика
Тут глянул гитхаб:
• 2,064 contributions in 2025
• 1,056 contributions in 2026
Сингулярность? ))
Тут глянул гитхаб:
• 2,064 contributions in 2025
• 1,056 contributions in 2026
Сингулярность? ))
💯3❤1🔥1
⚪️ Kimi K2.5 FREE 7day trial
Оказалось что у Кими акция очень тихая,и неприметная. Не знаешь - не найдешь. Но мы поможем!
Короче, раздают мелкий план бесплатно на 7 дней. Можно 2.5 пощупать.
Для кого: новые подписчики. Тем у кого раньше была подписка уже не дают. Как получить - заходите на kimi.com, ЛОГИНИТЕСЬ, и среди планов в варианте "на месяц" у Moderato будет так
@deksden_notes
Оказалось что у Кими акция очень тихая,и неприметная. Не знаешь - не найдешь. Но мы поможем!
Короче, раздают мелкий план бесплатно на 7 дней. Можно 2.5 пощупать.
Для кого: новые подписчики. Тем у кого раньше была подписка уже не дают. Как получить - заходите на kimi.com, ЛОГИНИТЕСЬ, и среди планов в варианте "на месяц" у Moderato будет так
@deksden_notes
❤4👍2
⚪️ СС теперь с нескучными обоями выражениями
Ну - все! Теперь заживм! В следующей версии можно будет кастомизировать чего вам СС во время работы будет писать как текст к спиннеру.
А если кроме шуток - мелкое QoL улучшение, но, в принципе, прикольное. Наверное, такие штуки украшают продукт
@deksden_notes
Ну - все! Теперь заживм! В следующей версии можно будет кастомизировать чего вам СС во время работы будет писать как текст к спиннеру.
А если кроме шуток - мелкое QoL улучшение, но, в принципе, прикольное. Наверное, такие штуки украшают продукт
@deksden_notes
❤2🔥1
⚪️ Beautiful Mermaid
Крутой проект - стильный рендер Mermaid диаграмм, дуо-рендер в SVG/ASCII, то есть для TUI тоже! Сложные диаграммы, темы. Оч круто
🔗 https://github.com/lukilabs/beautiful-mermaid
🔗 https://agents.craft.do/mermaid
Просто посмотрите демо сайт! 🔥
Более ранняя работа - кому надо только ASCII рендер:
🔗 https://github.com/AlexanderGrooff/mermaid-ascii
Самое оно для документации. Еще и агенты понимают вполне вменяемо
@deksden_notes
Крутой проект - стильный рендер Mermaid диаграмм, дуо-рендер в SVG/ASCII, то есть для TUI тоже! Сложные диаграммы, темы. Оч круто
🔗 https://github.com/lukilabs/beautiful-mermaid
🔗 https://agents.craft.do/mermaid
Просто посмотрите демо сайт! 🔥
Более ранняя работа - кому надо только ASCII рендер:
🔗 https://github.com/AlexanderGrooff/mermaid-ascii
Самое оно для документации. Еще и агенты понимают вполне вменяемо
@deksden_notes
🔥11👍4
⚪️ Progressive Disclosure : пробеги по граблям Skills и меморибанки
(Видимо,) В связи с активностью Vercel в отношении скиллов (запуск большой библиотеки Shills.sh) они тут исследование затеяли.
🔗 https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals
Суть их эксперимента в том, что они смотрели как агенты будут пользоваться скиллом, если туда пакануть документацию. Статья хорошая, прочитать стоит.
Что они обнаружили: что агенты не вызывают скиллы. "срезают углы" и идут простейшим путем. Можем не вызвать? не вызываем. Не новость (да, Опус?)!
Клозеды вот даже подучили как эвалы на свой скилл делать, чтобы смотреть когда он вызываетсяя, а когда - нет:
🔗 https://developers.openai.com/blog/eval-skills
В общем, проблема известная.
👉 Вкратце:
• просто поставить скилл почти совсем не помогает
• явный промптинг "используй скилл" уже заметно помогает
• лучше всего помогает если индекс явно грузить через AGENTS.md (индексный файл, ага) - но тогда теряется progressive disclosure
• думать надо именно в контексте progressive, то есть если сначала грузить документацию, а только потом смотреть на проект, то реультаты хуже чем если сначала смотреть на проект, а потом - в документацию. Это логично: агент будет знать чего смотреть конкретно и зачем.
При чем тут меморибанк? Дело в том, что я давно строю проекты с использованием именно меморибанков на progressive disclosure принципах (еще с тех времен когда они так не назывались - в закрепе канала индекс есть). И я давно свои флоу строю на явных директивных указаниях исследовать проект/меморибанк.
▶️ Vercel тут переоткрыл то, что давно было видно из практики работы с меморибанком: работают детерминированные этапы флоу - сначала готовим контекст явными промптами, потом работаем с ним. Для подготовки контекста принцип progressive disclosure работает хорошо - но только если его готовить.
Оставить все на откуп текущему поколению агентов нельзя, это не работает или работает неважно.
В следующем поколении, возможно (и скорее всего!) будет заметно лучше, раз скиллы настолько пошли в народ. Но пока - директивно праймим контекст.
(ц) А статейку то сами - прочтите, да!)
@deksden_notes
(Видимо,) В связи с активностью Vercel в отношении скиллов (запуск большой библиотеки Shills.sh) они тут исследование затеяли.
🔗 https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals
Суть их эксперимента в том, что они смотрели как агенты будут пользоваться скиллом, если туда пакануть документацию. Статья хорошая, прочитать стоит.
Что они обнаружили: что агенты не вызывают скиллы. "срезают углы" и идут простейшим путем. Можем не вызвать? не вызываем. Не новость (да, Опус?)!
Клозеды вот даже подучили как эвалы на свой скилл делать, чтобы смотреть когда он вызываетсяя, а когда - нет:
🔗 https://developers.openai.com/blog/eval-skills
В общем, проблема известная.
👉 Вкратце:
• просто поставить скилл почти совсем не помогает
• явный промптинг "используй скилл" уже заметно помогает
• лучше всего помогает если индекс явно грузить через AGENTS.md (индексный файл, ага) - но тогда теряется progressive disclosure
• думать надо именно в контексте progressive, то есть если сначала грузить документацию, а только потом смотреть на проект, то реультаты хуже чем если сначала смотреть на проект, а потом - в документацию. Это логично: агент будет знать чего смотреть конкретно и зачем.
При чем тут меморибанк? Дело в том, что я давно строю проекты с использованием именно меморибанков на progressive disclosure принципах (еще с тех времен когда они так не назывались - в закрепе канала индекс есть). И я давно свои флоу строю на явных директивных указаниях исследовать проект/меморибанк.
▶️ Vercel тут переоткрыл то, что давно было видно из практики работы с меморибанком: работают детерминированные этапы флоу - сначала готовим контекст явными промптами, потом работаем с ним. Для подготовки контекста принцип progressive disclosure работает хорошо - но только если его готовить.
Оставить все на откуп текущему поколению агентов нельзя, это не работает или работает неважно.
В следующем поколении, возможно (и скорее всего!) будет заметно лучше, раз скиллы настолько пошли в народ. Но пока - директивно праймим контекст.
(ц) А статейку то сами - прочтите, да!)
@deksden_notes
Vercel
AGENTS.md outperforms skills in our agent evals - Vercel
A compressed 8KB docs index in AGENTS.md achieved 100% on Next.js 16 API evals. Skills maxed at 79%. Here's what we learned and how to set it up.
❤8👍2
⚪️ Оркестраторы и статистика
Поработал сутки своим оркстратором. Даже не весь день стоял. Но одновременно по паре флоу тянул.
Итоги: на вчера явнарь был 22B токенов
Сегодня - 25B
👉 +3B токенов в сутки. 😱
Вот и думайте!
В апи ценах это $750
И это:
• без параллельныз линий флоу, линейный mini
• без сварма (выключен)
А ведь я хочу все это включить.. Интересно - сколько будет жрать тогда?
Но фичи пободрее стали вкорячиваться! Я 5 или 6 довольно приличных протоколов влил. Это прям неплохо! Не до конца как я хотел, но уже близко
(ц) Над таким мы работаем!
@deksden_notes
Поработал сутки своим оркстратором. Даже не весь день стоял. Но одновременно по паре флоу тянул.
Итоги: на вчера явнарь был 22B токенов
Сегодня - 25B
👉 +3B токенов в сутки. 😱
Вот и думайте!
В апи ценах это $750
И это:
• без параллельныз линий флоу, линейный mini
• без сварма (выключен)
А ведь я хочу все это включить.. Интересно - сколько будет жрать тогда?
Но фичи пободрее стали вкорячиваться! Я 5 или 6 довольно приличных протоколов влил. Это прям неплохо! Не до конца как я хотел, но уже близко
(ц) Над таким мы работаем!
@deksden_notes
👍8🤯3