Forwarded from Глеб Кудрявцев про AI кодинг
Скандальчик очередной с атакой на цепочку поставок. На сей раз под ударом все кто имеют в цепочке зависимостей библиотку axios в npm (очень популярная библиотека для сетевых запросов).
Более пяти часов она ставила зашифрованный малварь на машины жертв. Объемы инсталляций библиотеки— 100 млн в месяц, так что заражены могут быть миллионы машин.
Проверяйте себя
https://x.com/feross/status/2038807290422370479?s=46&t=X0WelBfVXZJ6DwiINUU8mA
Если вы запускали npm install в последние сутки: Проверка, попали ли вы под атаку:
Более пяти часов она ставила зашифрованный малварь на машины жертв. Объемы инсталляций библиотеки— 100 млн в месяц, так что заражены могут быть миллионы машин.
Проверяйте себя
https://x.com/feross/status/2038807290422370479?s=46&t=X0WelBfVXZJ6DwiINUU8mA
Если вы запускали npm install в последние сутки: Проверка, попали ли вы под атаку:
# blackhole C2 Domain
echo '127.0.0.1 sfrclak.com' | sudo tee -a /etc/hosts
# flush DNS cache for good measure
sudo dscacheutil -flushcache
# check for IoC - if this file exists you are pwned
# shut down your machine immediately
ls /Library/Caches/com.apple.act.mondX (formerly Twitter)
Feross (@feross) on X
🚨 CRITICAL: Active supply chain attack on axios -- one of npm's most depended-on packages.
The latest axios@1.14.1 now pulls in plain-crypto-js@4.2.1, a package that did not exist before today. This is a live compromise.
This is textbook supply chain installer…
The latest axios@1.14.1 now pulls in plain-crypto-js@4.2.1, a package that did not exist before today. This is a live compromise.
This is textbook supply chain installer…
👀28🔥3🤬3🤮3❤1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
Сижу перевекторизирую 235 млн сообщений с miniLM на bge-m3
Данные уже в opensearch, модель поднята на A100, казалось бы — запусти скрипт и иди спать
Но нет. ML кластер с A100 в одном сегменте сети, opensearch в другом, я со своим ноутом на корпоративном VPN в третьем. Скрипт надо запихать поближе к данным а доступов нет. Сказка да и только, буду пробиваться через техподдержку
Это ещё до того как я посчитал что встроенный ingest pipeline opensearch гоняет документы по одному — каждый = отдельный HTTP запрос к модели. 235 млн × 25ms = 68 дней. Но может я ошибаюсь и кто-то подскажет как правильно? Может как скролл настроить правильно?
Написал внешний скрипт с батчингом 3000 docs/s (воу), 21 час вместо 68 дней. Осталось его доставить туда где он сможет достучаться до обоих сервисов одновременно с минимальной задержкой
По пути vLLM v0.18.0 тихо убрал --task embed (узнал через краш в 2 ночи), потом CUDA graphs баг в RoBERTa который попал в релиз раньше фикса. A100 80GB при этом занята на 8.7 из 80 что смешно — тестами с клодом пришёл к тому что 5 контейнеров vLLM это максимум для утилизации GPU, поставил traefik перед ними для балансировки
Реалии корпоративного AI/LLM/ML зоопарка (расскажу как-нибудь в следующих постах про это)
Вот из таких историй и складывается реальный ML на проде не из красивых архитектурных схем а из сетевых сегментов, крашей в 2 ночи и 68 дней которые надо превратить в 21 час
В прошлом году на Data Fusion подсмотрел как ребята тренят классификаторы на катбусте под гарды — вернулся и собрал свой guardrails v2 на этом подходе. Сэкономил недели которые бы потратил на эксперименты с архитектурой
В этом году иду за кейсами по массивным ML пайплайнам потому что вот это всё с переиндексацией 235 млн документов явно не последний раз
И в этом году Data Fusion 2026 сделали аж более 70 сессий, ИИ-агенты, RL, CV, NLP, робототехника, рекомендательные системы, AI в кибербезопасности и науке. ML-лиды, DS, инженеры, исследователи и бизнес на одной площадке, спикеры из ВТБ, AIRI, МФТИ, Сколтеха, Яндекса, X5, Ростелекома
Я планирую приехать, если кто тоже будет пишите, пересечёмся поговорим про этот вот все =)
Данные уже в opensearch, модель поднята на A100, казалось бы — запусти скрипт и иди спать
Но нет. ML кластер с A100 в одном сегменте сети, opensearch в другом, я со своим ноутом на корпоративном VPN в третьем. Скрипт надо запихать поближе к данным а доступов нет. Сказка да и только, буду пробиваться через техподдержку
Это ещё до того как я посчитал что встроенный ingest pipeline opensearch гоняет документы по одному — каждый = отдельный HTTP запрос к модели. 235 млн × 25ms = 68 дней. Но может я ошибаюсь и кто-то подскажет как правильно? Может как скролл настроить правильно?
Написал внешний скрипт с батчингом 3000 docs/s (воу), 21 час вместо 68 дней. Осталось его доставить туда где он сможет достучаться до обоих сервисов одновременно с минимальной задержкой
По пути vLLM v0.18.0 тихо убрал --task embed (узнал через краш в 2 ночи), потом CUDA graphs баг в RoBERTa который попал в релиз раньше фикса. A100 80GB при этом занята на 8.7 из 80 что смешно — тестами с клодом пришёл к тому что 5 контейнеров vLLM это максимум для утилизации GPU, поставил traefik перед ними для балансировки
Реалии корпоративного AI/LLM/ML зоопарка (расскажу как-нибудь в следующих постах про это)
Вот из таких историй и складывается реальный ML на проде не из красивых архитектурных схем а из сетевых сегментов, крашей в 2 ночи и 68 дней которые надо превратить в 21 час
В прошлом году на Data Fusion подсмотрел как ребята тренят классификаторы на катбусте под гарды — вернулся и собрал свой guardrails v2 на этом подходе. Сэкономил недели которые бы потратил на эксперименты с архитектурой
В этом году иду за кейсами по массивным ML пайплайнам потому что вот это всё с переиндексацией 235 млн документов явно не последний раз
И в этом году Data Fusion 2026 сделали аж более 70 сессий, ИИ-агенты, RL, CV, NLP, робототехника, рекомендательные системы, AI в кибербезопасности и науке. ML-лиды, DS, инженеры, исследователи и бизнес на одной площадке, спикеры из ВТБ, AIRI, МФТИ, Сколтеха, Яндекса, X5, Ростелекома
Я планирую приехать, если кто тоже будет пишите, пересечёмся поговорим про этот вот все =)
2👍36🔥25💯6❤5🤯3
Forwarded from AI-Driven Development. Родион Мостовой
Митап с Валерой Ковальским про SGR, GraphRAG по коду и его воркфлоу
Ну, в AI индустрии Валеру не знает, наверно, только ленивый. Но на всякий случай:
- Head of AI Engineering, автор канала @neuraldeep
- Популяризатор SGR подхода (Scheme-Guided Reasoning) и автор популярного фреймворка-реализации SGR https://github.com/vamplabAI/sgr-agent-core (1100+ звезд!)
- Автор 10+ опенсорс проектов, включая ру базу скиллов https://neuraldeep.ru
- Наверное, один из наиболее востребованных экспертов по RAG и агентным системам в СНГ.
Что будет на митапе?
В прямом эфире создадим агента по SGR, который собирает связи по кодовой базе для последующего создания GraphRAG. Но самое интересное, что агента мы будем кодить вместе с Валерой по его воркфлоу (а значит, мы узнаем почему в узких кругах Валеру называют "120 минут" ).
Встречаемся сегодня в 14:00 по МСК онлайн.
Ссылка на встречу: https://luma.com/dheyf8hl
Ну, в AI индустрии Валеру не знает, наверно, только ленивый. Но на всякий случай:
- Head of AI Engineering, автор канала @neuraldeep
- Популяризатор SGR подхода (Scheme-Guided Reasoning) и автор популярного фреймворка-реализации SGR https://github.com/vamplabAI/sgr-agent-core (1100+ звезд!)
- Автор 10+ опенсорс проектов, включая ру базу скиллов https://neuraldeep.ru
- Наверное, один из наиболее востребованных экспертов по RAG и агентным системам в СНГ.
Что будет на митапе?
В прямом эфире создадим агента по SGR, который собирает связи по кодовой базе для последующего создания GraphRAG. Но самое интересное, что агента мы будем кодить вместе с Валерой по его воркфлоу (
Встречаемся сегодня в 14:00 по МСК онлайн.
Ссылка на встречу: https://luma.com/dheyf8hl
Luma
Строим GraphRAG по коду по SGR: Валера Ковальский · Luma
Валеру Ковальского не знает, наверно, только ленивый. Но на всякий случай:
Head of AI Engineering, автор канала @neuraldeep
Популяризатор SGR подхода…
Head of AI Engineering, автор канала @neuraldeep
Популяризатор SGR подхода…
1🔥34❤8😁4👍3👌3
2😁97👍7❤5 5🔥3🤣2
Forwarded from AI-Driven Development. Родион Мостовой
Мы в эфире с Валерой: https://www.youtube.com/watch?v=cMRo2CYrRNQ
YouTube
Делаем GraphRAG по коду через SGR с Валерой Ковальским
Канал AI-Driven Development: https://t.me/ai_driven
Канал Валеры: https://t.me/neuraldeep
Контекстный движок CodeAlive: https://www.codealive.ai/
Канал Валеры: https://t.me/neuraldeep
Контекстный движок CodeAlive: https://www.codealive.ai/
1👍14❤6
Forwarded from Dealer.AI
GEO аналитик с KimiClaw или как мы улучшаем наш publicity для агентов.
Вышла новая статья про то, как во ВкусВилл мы сделали Claw помощника🤖 для анализа выдачи в поиске для ИИ-агента.
Что такое GEO? Это generative engine optimization, процесс оптимизации контента для искусственного интеллекта. Цель - улучшить видимость бренда для нейросетей и попадать в блок нейро-ответов поисковых систем.
Представьте, вы запустили своего AI-пикера за товаром в сеть. И от того, как LLM видит ваш магазин в поиске зависит попадёт ли ваш товар или услуга в пулл агента для покупки. Именно, чтобы понять, как мы выглядим в поиске для агента и был сделан такой GEO-аналитик, и да пререквизитом уже был наш готовый MCP.
Цель статьи показать, что сделать своего помощника совершенно не сложно, также мы подсветили ряд интересных моментов с которыми мы столкнулись при создании.
Пробуйте сами, а также приходите к нам создавать будущее AI-ритейла.🥛
Вышла новая статья про то, как во ВкусВилл мы сделали Claw помощника
Что такое GEO? Это generative engine optimization, процесс оптимизации контента для искусственного интеллекта. Цель - улучшить видимость бренда для нейросетей и попадать в блок нейро-ответов поисковых систем.
Представьте, вы запустили своего AI-пикера за товаром в сеть. И от того, как LLM видит ваш магазин в поиске зависит попадёт ли ваш товар или услуга в пулл агента для покупки. Именно, чтобы понять, как мы выглядим в поиске для агента и был сделан такой GEO-аналитик, и да пререквизитом уже был наш готовый MCP.
Цель статьи показать, что сделать своего помощника совершенно не сложно, также мы подсветили ряд интересных моментов с которыми мы столкнулись при создании.
Пробуйте сами, а также приходите к нам создавать будущее AI-ритейла.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Цифровой сотрудник на OpenClaw: нанять, обучить и не потерять
Привет! Я Сабина, владелец продукта из Центра экспертизы ИИ, ВкусВилл. В конце 2025 года мы писали про экспериментальный MCP сервер для выбора товаров. Очень признательны за вашу обратную связь, будем...
🔥20🤮12 5❤3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Мне стало страшно перезагружать нотубук и потом искать все сессии в терминале
В папках ./claude ./codex лежало спокойствие
И я решил навайбкодить дашборд для сессий Claude Code + Codex (дабы не рыскать по сессиям в терминале)
Встречайте CodeDash для тех кто любит терминал, и не нашел еще решения такой проблемы, или если вы нашли присылайте в коментарии app не предлагать =)
ну и по классике вы всегда можете допилить что хотите сами
Репо: https://github.com/vakovalskii/codedash
Добавил легкий переезд сессий с одного пк на другой
В папках ./claude ./codex лежало спокойствие
И я решил навайбкодить дашборд для сессий Claude Code + Codex (дабы не рыскать по сессиям в терминале)
Встречайте CodeDash для тех кто любит терминал, и не нашел еще решения такой проблемы, или если вы нашли присылайте в коментарии app не предлагать =)
npx codedash-app@latest run
ну и по классике вы всегда можете допилить что хотите сами
Репо: https://github.com/vakovalskii/codedash
Добавил легкий переезд сессий с одного пк на другой
codedash export / codedash import читайте в репо6👍74🔥42❤15😁4 2🤔1
Ссылка на зум: https://us06web.zoom.us/j/85633161275?pwd=MH9bycZ9k1kPv3sYRuV9C66aDJQWva.1
Вопрос 1
14: 01 Вопросы про память у кодинг агентов как организовывать документацию
Залетайте задать свой вопрос!
Следующий вопрос 2
14:10 Что будет актуально через время какой запрос у бизнеса будет дальше после агентов
Следующий вопрос 3
14:25 Что интересного нашли в утечках claude code
Следующий вопрос 4-5
14:30 Локальные модели? Стоит ли работяге их катать? На локал компе и каком
14:35 Агностики ЛЛМ/Луддиты в компании что с ними делать?
Следующий вопрос 5
14:45 Как определить какие задачи передавать агентам и как их делать детерминированно? Как доверять ответам агентов?
Следующий вопрос 6
14:55 Как проверять нейрослоп от агента? Людьми? Есть ли способ автоматизировать?
Следующий вопрос 7
14:55 Карьера? Зарабатывает ли AI Инженер больше других простых инженеров? Куда учится или свопится?
15:10 Как найти эксперта? И как найти сеньеров для продакшена?
15:15 Как все таки вести документацию есть ли лайхаки? Нужно ли упарываться?
15:25 Как протащить ИИ инструменты через СБ? Где граница потери процесса обучения, мы теряем детали?
Вопрос 1
14: 01 Вопросы про память у кодинг агентов как организовывать документацию
Залетайте задать свой вопрос!
Следующий вопрос 2
14:10 Что будет актуально через время какой запрос у бизнеса будет дальше после агентов
Следующий вопрос 3
14:25 Что интересного нашли в утечках claude code
Следующий вопрос 4-5
14:30 Локальные модели? Стоит ли работяге их катать? На локал компе и каком
14:35 Агностики ЛЛМ/Луддиты в компании что с ними делать?
Следующий вопрос 5
14:45 Как определить какие задачи передавать агентам и как их делать детерминированно? Как доверять ответам агентов?
Следующий вопрос 6
14:55 Как проверять нейрослоп от агента? Людьми? Есть ли способ автоматизировать?
Следующий вопрос 7
14:55 Карьера? Зарабатывает ли AI Инженер больше других простых инженеров? Куда учится или свопится?
15:10 Как найти эксперта? И как найти сеньеров для продакшена?
15:15 Как все таки вести документацию есть ли лайхаки? Нужно ли упарываться?
15:25 Как протащить ИИ инструменты через СБ? Где граница потери процесса обучения, мы теряем детали?
Zoom
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise cloud communications.
❤10👍3🙉2
К нам присоединился Коля автор канала https://t.me/oestick
https://us06web.zoom.us/j/85633161275?pwd=MH9bycZ9k1kPv3sYRuV9C66aDJQWva.1
https://us06web.zoom.us/j/85633161275?pwd=MH9bycZ9k1kPv3sYRuV9C66aDJQWva.1
❤10👍9🔥7
Валера Ковальский
Мне стало страшно перезагружать нотубук и потом искать все сессии в терминале В папках ./claude ./codex лежало спокойствие И я решил навайбкодить дашборд для сессий Claude Code + Codex (дабы не рыскать по сессиям в терминале) Встречайте CodeDash для тех…
СodeDash
Наверное это первый мой проект который я делаю для себя настолько что пользуюсь им каждую секунду работы на ПК
Добавлено 20+ фич
Основные:
Активные сессии
Фокус на текущей сессии по кнопке
Сортировка
Поиск по всему контенту не т.е даже по сообщениям в сессии
Отображение сообщений внутри сессии
И еще 20 фичей для удобства работы с вашим любимым кодинг агентом в терминале!
добавлены
Kilo
OpenCode
Экспорт сессий и легкий конверт claude code to codex и обратно
Репо: https://github.com/vakovalskii/codedash
Наверное это первый мой проект который я делаю для себя настолько что пользуюсь им каждую секунду работы на ПК
npm i -g codedash-app && codedash run
Добавлено 20+ фич
Основные:
Активные сессии
Фокус на текущей сессии по кнопке
Сортировка
Поиск по всему контенту не т.е даже по сообщениям в сессии
Отображение сообщений внутри сессии
И еще 20 фичей для удобства работы с вашим любимым кодинг агентом в терминале!
добавлены
Kilo
OpenCode
Экспорт сессий и легкий конверт claude code to codex и обратно
Репо: https://github.com/vakovalskii/codedash
9🔥103❤24 8👍5⚡1
NeuralDeep апдейт за две недели
(база знаний для агентов)
Пара цифр для затравки:
— 42 навыка и MCP сервера в каталоге (было 15 на старте)
— 38 скиллов + 4 MCP сервера
— 94 зарегистрированных пользователя
— 426 установок через CLI
— 16 авторов-контрибьюторов
За последнюю неделю прилетело 10 новых поинтов от комьюнити:
DaData (скилл + MCP) — проверка контрагентов, валидация адресов, 31 инструмент
Ozon Seller API — работа с маркетплейсом Ozon через агент
ZenMoney — интеграция с финансовым трекером.
MPStats — аналитика маркетплейсов
SberMobile — мобильный Сбер. Автор: Лев
Travel Search RU — поиск билетов и туров
xBSL AI Skills — 1С:BSL разработка
Neural Deep Search — мультимодальный поиск SearXNG+Tavily для self-hosted
Что нового по фичам:
Личный кабинет — теперь каждый автор может редактировать и удалять свои навыки прямо на сайте (neuraldeep.ru/dashboard)
Сортировка по дате — на всех страницах (навыки, MCP, CLI) теперь можно отсортировать по новизне, звёздам
Комментарии на MCP — раньше были только на скиллах
RU-метки — проверили и раздали всем российским сервисам правильные теги
Тесты контента — CI теперь гоняет аудит: пустые теги, кривые имена, битые данные не пролезут
Trending 24h — починен подсчёт (раньше считал с начала времён, теперь честные 24 часа)
Топ по установкам:
1. 1С Enterprise — 94
2. Яндекс Wordstat — 61
3. Яндекс Метрика — 49
4. Яндекс Вебмастер — 33
5. Битрикс24 — 27
Проект open source, любой может залить свой скилл или MCP через GitHub
Сайт: neuraldeep.ru
Репо: github.com/vakovalskii/neuraldeep
Stay Tuned!
(база знаний для агентов)
Пара цифр для затравки:
— 42 навыка и MCP сервера в каталоге (было 15 на старте)
— 38 скиллов + 4 MCP сервера
— 94 зарегистрированных пользователя
— 426 установок через CLI
— 16 авторов-контрибьюторов
За последнюю неделю прилетело 10 новых поинтов от комьюнити:
DaData (скилл + MCP) — проверка контрагентов, валидация адресов, 31 инструмент
Ozon Seller API — работа с маркетплейсом Ozon через агент
ZenMoney — интеграция с финансовым трекером.
MPStats — аналитика маркетплейсов
SberMobile — мобильный Сбер. Автор: Лев
Travel Search RU — поиск билетов и туров
xBSL AI Skills — 1С:BSL разработка
Neural Deep Search — мультимодальный поиск SearXNG+Tavily для self-hosted
Что нового по фичам:
Личный кабинет — теперь каждый автор может редактировать и удалять свои навыки прямо на сайте (neuraldeep.ru/dashboard)
Сортировка по дате — на всех страницах (навыки, MCP, CLI) теперь можно отсортировать по новизне, звёздам
Комментарии на MCP — раньше были только на скиллах
RU-метки — проверили и раздали всем российским сервисам правильные теги
Тесты контента — CI теперь гоняет аудит: пустые теги, кривые имена, битые данные не пролезут
Trending 24h — починен подсчёт (раньше считал с начала времён, теперь честные 24 часа)
Топ по установкам:
1. 1С Enterprise — 94
2. Яндекс Wordstat — 61
3. Яндекс Метрика — 49
4. Яндекс Вебмастер — 33
5. Битрикс24 — 27
Проект open source, любой может залить свой скилл или MCP через GitHub
Сайт: neuraldeep.ru
Репо: github.com/vakovalskii/neuraldeep
Stay Tuned!
3🔥76❤16👍2
Tool Calling на максималках для хард инженеров
Как на самом деле работает Tool Calling: от HTTP до парсеров
Саша @polyakovbest затронул тему неточности на курсах ШАД про tool calling
Все правы но каждый в своём слое, я даже ответил достаточно развернуто в комментариях
Давайте закрепим как это работает по-настоящему, я залезал в кишки vLLM и переписывал парсер для тулов чтобы проследить весь путь
Три слоя одной правды
Лектор ШАД говорит: «тулы передаются через системный промпт». Саша поправляет: «тулы объявляются в отдельной секции API-запроса». Оба правы, но на разных уровнях абстракции.
Вот что происходит на самом деле (см. диаграмму):
Слой 1: HTTP-запрос
Ты отправляешь
На уровне API это отдельное поле, не system prompt
Саша тут прав на 1000%.
Слой 2: Chat Template (Jinja2)
Вот тут начинается магия
Открываем
Chat template берёт твои
Слой 3: Constrained Decoding (xgrammar)
Параллельно JSON-схемы тулов попадают в
Это xgrammar/outlines — constrained decoding на уровне логитов та магическая штука что заставляет тулы возвращаться не сломанными и со всеми аргументами что вы заложили на старте
Модель физически не может сгенерировать невалидный JSON, маска токенов не даст
Слой 4: Hermes Parser (post-processing)
Модель генерит обычный текст:
Это приходит в поле
Парсер Hermes ловит XML-теги, извлекает JSON и перекладывает в структурированный ответ
Важный нюанс:
Не
Парсер делает всю магию post-processing'ом. Инженерия, да и только.
Почему важно изучать матчасть всю а не по кусочкам? И Саша поднимает очень крутую тему с тем что стоит смотреть чуть чуть дальше доки)
Все банально, залезть в chat template, поднять модельку самому, вывести full логи (это уровень тру llm инженеров) и на этот уровень почти никто не заглядывает, редко вижу где авторы разбирают логиты или темплейты или уж упаси того за ногу запуск чего-то экзотического с разбором инференс движка
На сегодня очень небольшой список тех за кем я слежу и читаю, это те кто лезет настолько глубого в инференс и выкладывает что-то на гитхаб что даже я разбираю их посты с гуглом в обнимку!
https://t.me/evilfreelancer (Паша очень хардовый инженер по обучение запуску и девопсу)
https://t.me/sergeinotevskii (Сергей, лично тоже. наком рулит всей AI платформой в Bitrix)
Но вы будете так же правы если на сегодня не сталкиваетесь с проблемами tool call при работе с облачными моделями, оно вам не текущем этапе жизни точно не нужно
Проприетарные API (Anthropic, OpenAI) прячут всё это серверно ты не видишь ни chat template, ни constrained decoding, ни парсер
Получаешь красивый
Но внутри ровно та же цепочка, это просто стоит понимать
Ранее разбирал историю SO + FC + MCP в трёх частях: [часть 1] | [часть 2] | [часть 3]
В коментариях прислал пример полного запроса в LLM когда включен максимальный уровень дебага в vLLM
Считаю базой то что сюда надо заглянуть любому уважающему себя инженеру
Не обязательно переписывать парсер но понимать контракт между API, chat template и constrained decoding нужно
Между инференс-фреймворком и провайдером существует контракт что и куда попадает через chat template
Старайтесь не нарушать его и изучать как он работает
Иначе ты не инженер, а пользователь чужих абстракций
Как на самом деле работает Tool Calling: от HTTP до парсеров
Саша @polyakovbest затронул тему неточности на курсах ШАД про tool calling
Все правы но каждый в своём слое, я даже ответил достаточно развернуто в комментариях
Давайте закрепим как это работает по-настоящему, я залезал в кишки vLLM и переписывал парсер для тулов чтобы проследить весь путь
Три слоя одной правды
Лектор ШАД говорит: «тулы передаются через системный промпт». Саша поправляет: «тулы объявляются в отдельной секции API-запроса». Оба правы, но на разных уровнях абстракции.
Вот что происходит на самом деле (см. диаграмму):
Слой 1: HTTP-запрос
Ты отправляешь
tools: [...] отдельной секциейНа уровне API это отдельное поле, не system prompt
Саша тут прав на 1000%.
Слой 2: Chat Template (Jinja2)
Вот тут начинается магия
Открываем
tokenizer_config.json любой модели (Qwen3, Hermes и т.д.):{%- if tools %}
"# Tools\n\nYou may call one or more functions..."
<tools>{tool schemas}</tools>Chat template берёт твои
tools: [...] и рендерит их ПРЯМО в system prompt. Лектор ШАД на этом уровне не врёт (но вводит в заблуждение если не раскрывает сути дальше)Слой 3: Constrained Decoding (xgrammar)
Параллельно JSON-схемы тулов попадают в
guided_decoding=GuidedDecodingParams(json={...})Это xgrammar/outlines — constrained decoding на уровне логитов та магическая штука что заставляет тулы возвращаться не сломанными и со всеми аргументами что вы заложили на старте
Модель физически не может сгенерировать невалидный JSON, маска токенов не даст
Слой 4: Hermes Parser (post-processing)
Модель генерит обычный текст:
<tool_call>{"name": "...", "arguments": {...}}</tool_call>Это приходит в поле
contentПарсер Hermes ловит XML-теги, извлекает JSON и перекладывает в структурированный ответ
Важный нюанс:
tool_calls: null, finish_reason: "stop"Не
tool_use!Парсер делает всю магию post-processing'ом. Инженерия, да и только.
Почему важно изучать матчасть всю а не по кусочкам? И Саша поднимает очень крутую тему с тем что стоит смотреть чуть чуть дальше доки)
Все банально, залезть в chat template, поднять модельку самому, вывести full логи (это уровень тру llm инженеров) и на этот уровень почти никто не заглядывает, редко вижу где авторы разбирают логиты или темплейты или уж упаси того за ногу запуск чего-то экзотического с разбором инференс движка
На сегодня очень небольшой список тех за кем я слежу и читаю, это те кто лезет настолько глубого в инференс и выкладывает что-то на гитхаб что даже я разбираю их посты с гуглом в обнимку!
https://t.me/evilfreelancer (Паша очень хардовый инженер по обучение запуску и девопсу)
https://t.me/sergeinotevskii (Сергей, лично тоже. наком рулит всей AI платформой в Bitrix)
Но вы будете так же правы если на сегодня не сталкиваетесь с проблемами tool call при работе с облачными моделями, оно вам не текущем этапе жизни точно не нужно
Проприетарные API (Anthropic, OpenAI) прячут всё это серверно ты не видишь ни chat template, ни constrained decoding, ни парсер
Получаешь красивый
tool_calls: [{...}] и finish_reason: tool_useНо внутри ровно та же цепочка, это просто стоит понимать
Ранее разбирал историю SO + FC + MCP в трёх частях: [часть 1] | [часть 2] | [часть 3]
В коментариях прислал пример полного запроса в LLM когда включен максимальный уровень дебага в vLLM
Считаю базой то что сюда надо заглянуть любому уважающему себя инженеру
Не обязательно переписывать парсер но понимать контракт между API, chat template и constrained decoding нужно
Между инференс-фреймворком и провайдером существует контракт что и куда попадает через chat template
Старайтесь не нарушать его и изучать как он работает
Иначе ты не инженер, а пользователь чужих абстракций
6🔥64❤19👍17
CodeDash (3 день развития)
100 звезд на гите
30+ фичей
18 форков
5 новых контрибьюторов 28 issues
30 + PR
Получил уже более 5 положительных отзывов лично (продолжаю улучшать и все так же каждый день пользователя своим же сервисом!
Карточки проектов становятся все информативнее
Добавлена возможность генерировать ИИ тайтлы (берете любую openai api модельку и погнали)
Спасибо что приносите идеи по улучшению сервиса!
Сделаем же работу и ИИ кодингом еще удобнее =)
Репо: https://github.com/vakovalskii/codedash
100 звезд на гите
30+ фичей
18 форков
5 новых контрибьюторов 28 issues
30 + PR
Получил уже более 5 положительных отзывов лично (продолжаю улучшать и все так же каждый день пользователя своим же сервисом!
Карточки проектов становятся все информативнее
Добавлена возможность генерировать ИИ тайтлы (берете любую openai api модельку и погнали)
Спасибо что приносите идеи по улучшению сервиса!
Сделаем же работу и ИИ кодингом еще удобнее =)
Репо: https://github.com/vakovalskii/codedash
4🔥58❤20👍10
Forwarded from Остриков пилит агентов
Вышел наш второй комьюнити-стрим!
Для вас отжигали, на фото: @nobilix, @superbereza, @ai_grably, @aostrikov_ai_agents и маэстро @neuraldeep
📹 https://youtu.be/nUT1YRvjG98
24 вопроса, 2.5 часа стрим, чуть не дожали до бейзлайна Лекса Фридмана.
Поболтали про агентов, будущее, лобстеров, утекший claude code и вероятность продать свой опенкло за миллиард:
00:00 — Приветствие!
06:06 — Как системно строить общую базу знаний для агентов и как вести документацию?
11:57 — Куда сдвинется бизнес-запрос в течение года: к агентным сценариям или к чему-то другому?
20:07 — Что лично мы нашли ценного в утекших исходниках Claude Code?
25:33 — Какой сейчас реальный scope у локальных моделей и стоит ли их уже внедрять в рабочие процессы?
30:15 — Что делать с тем, что часть разработчиков до сих пор не пользуется LLM, и как сокращать разрыв?
39:30 — Какие задачи лучше отдавать агентам и как контролировать качество результата?
45:45 — Как использовать агентов в обычной жизни для снятия рутины?
53:23 — Могут ли AI-инженеры зарабатывать 900k и какие роли будут цениться выше остальных?
01:07:11 — Каковы шансы стать новым Питером Штайнбергом, которого купит OpenAI, или выйти на быстрый первый миллион?
01:10:47 — Что делать маленькому AI-стартапу с клиентами и заказами, если не хватает доменных экспертов?
01:16:32 — Должны ли AI-чатботы быть явно помечены как AI и почему люди боятся отказываться от документации?
01:22:34 — Как убедить безопасников внутри компании разрешить Claude и Codex?
01:25:04 — Как не терять важные детали встреч/отчетов при постоянных AI-суммаризациях?
01:28:49 — Правда ли, что главный тренд сейчас — перевод человеческого опыта в skills и стоит ли туда идти?
01:39:33 — Как дешево и быстро собирать контекст для мультиагентной системы и не заставлять пользователя долго ждать?
01:47:35 — Чем решения вроде OpenClaw/Codex/Claude лучше традиционных агентских фреймворков и как их ограничивать?
01:52:29 — Как правильно декомпозировать сложный процесс на скиллы? 🤾🏻♀️
01:58:03 — Как написать skill для получения и анализа таблицы в Pandas и Jupyter Notebook?
01:59:48 — Как опытному фронтендеру научиться backend-разработке: через видео или open source?
02:04:06 — Какие три первых шага внедрять системному интегратору без опыта AI-внедрений?
02:07:48 — Как понять, что после MVP агента пора заводить его в инфраструктуру и переходить с внешних моделей на внутренние? И как убедить стейкхолдеров?
02:13:10 — Насколько часто бизнесу нужна оптимизация процессов разработки и можно ли делать это аутстаффом?
02:16:33 — Что почитать про самоэволюционные системы, если душа требует большего, чем просто self-eval loop?
02:24:11 — Как заново собрать OpenClaw, если он стал слишком дорогим по токенам из-за накопленного контекста?
Стримы идут по нарастающей, следующий займет 3,5 часа и посередине придется устраивать обеденный перерыв.
Были рады всех видеть и увидимся в новых сериях!☕
Для вас отжигали, на фото: @nobilix, @superbereza, @ai_grably, @aostrikov_ai_agents и маэстро @neuraldeep
24 вопроса, 2.5 часа стрим, чуть не дожали до бейзлайна Лекса Фридмана.
Поболтали про агентов, будущее, лобстеров, утекший claude code и вероятность продать свой опенкло за миллиард:
00:00 — Приветствие!
06:06 — Как системно строить общую базу знаний для агентов и как вести документацию?
11:57 — Куда сдвинется бизнес-запрос в течение года: к агентным сценариям или к чему-то другому?
20:07 — Что лично мы нашли ценного в утекших исходниках Claude Code?
25:33 — Какой сейчас реальный scope у локальных моделей и стоит ли их уже внедрять в рабочие процессы?
30:15 — Что делать с тем, что часть разработчиков до сих пор не пользуется LLM, и как сокращать разрыв?
39:30 — Какие задачи лучше отдавать агентам и как контролировать качество результата?
45:45 — Как использовать агентов в обычной жизни для снятия рутины?
53:23 — Могут ли AI-инженеры зарабатывать 900k и какие роли будут цениться выше остальных?
01:07:11 — Каковы шансы стать новым Питером Штайнбергом, которого купит OpenAI, или выйти на быстрый первый миллион?
01:10:47 — Что делать маленькому AI-стартапу с клиентами и заказами, если не хватает доменных экспертов?
01:16:32 — Должны ли AI-чатботы быть явно помечены как AI и почему люди боятся отказываться от документации?
01:22:34 — Как убедить безопасников внутри компании разрешить Claude и Codex?
01:25:04 — Как не терять важные детали встреч/отчетов при постоянных AI-суммаризациях?
01:28:49 — Правда ли, что главный тренд сейчас — перевод человеческого опыта в skills и стоит ли туда идти?
01:39:33 — Как дешево и быстро собирать контекст для мультиагентной системы и не заставлять пользователя долго ждать?
01:47:35 — Чем решения вроде OpenClaw/Codex/Claude лучше традиционных агентских фреймворков и как их ограничивать?
01:52:29 — Как правильно декомпозировать сложный процесс на скиллы? 🤾🏻♀️
01:58:03 — Как написать skill для получения и анализа таблицы в Pandas и Jupyter Notebook?
01:59:48 — Как опытному фронтендеру научиться backend-разработке: через видео или open source?
02:04:06 — Какие три первых шага внедрять системному интегратору без опыта AI-внедрений?
02:07:48 — Как понять, что после MVP агента пора заводить его в инфраструктуру и переходить с внешних моделей на внутренние? И как убедить стейкхолдеров?
02:13:10 — Насколько часто бизнесу нужна оптимизация процессов разработки и можно ли делать это аутстаффом?
02:16:33 — Что почитать про самоэволюционные системы, если душа требует большего, чем просто self-eval loop?
02:24:11 — Как заново собрать OpenClaw, если он стал слишком дорогим по токенам из-за накопленного контекста?
Стримы идут по нарастающей, следующий займет 3,5 часа и посередине придется устраивать обеденный перерыв.
Были рады всех видеть и увидимся в новых сериях!
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥57❤22 8👍1
Ребят в CodeDash появился лидерборд!
Зачем?
1) Интересно узнать на сколько вы отличаетесь от других вайбкодеров
2) Можно найти друзей по цэху и написать им через github
3) Можно поискать что же за проекты пилит автор если он их выкладывает в open-source
4) Можно поискать и хантить себе вайберов если вы поняли о чем я =)
5) Просто по фану измерить примерно сколько у вас всм запросов на фоне других вайберов
В общем качайте новую версию
Синхронизируйте Github и регистрируйтесь в лидерборде!
Зачем?
1) Интересно узнать на сколько вы отличаетесь от других вайбкодеров
2) Можно найти друзей по цэху и написать им через github
3) Можно поискать что же за проекты пилит автор если он их выкладывает в open-source
4) Можно поискать и хантить себе вайберов если вы поняли о чем я =)
5) Просто по фану измерить примерно сколько у вас в
В общем качайте новую версию
codedash update && codedash restart
Синхронизируйте Github и регистрируйтесь в лидерборде!
🔥24❤14👍9😁4🤡3💊3🤮2 2
😁21 16👍1🔥1🤮1