LLM as a Judge: опыт оптимизации генератора описаний Pull Request
Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход LLM as a judge — когда сама языковая модель оценивает качество генераций и сравнивает между собой разные варианты описаний. Поделюсь опытом определения критериев качества, сбора валидационного датасета, подбора промптов и выбора модели. Результаты оказались обнадёживающими: метод действительно позволяет улучшить генеративную систему без участия ручной разметки и асессоров. Читать далее
#llm #automaticevaluation #pullrequest #codegeneration #promptengineering #codereview | @habr_ai
Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход LLM as a judge — когда сама языковая модель оценивает качество генераций и сравнивает между собой разные варианты описаний. Поделюсь опытом определения критериев качества, сбора валидационного датасета, подбора промптов и выбора модели. Результаты оказались обнадёживающими: метод действительно позволяет улучшить генеративную систему без участия ручной разметки и асессоров. Читать далее
#llm #automaticevaluation #pullrequest #codegeneration #promptengineering #codereview | @habr_ai
Хабр
LLM as a Judge: опыт оптимизации генератора описаний Pull Request
В последние годы языковые модели всё активнее применяются для задач, связанных с программированием. Если раньше разработчики экспериментировали с решениями вроде Code Llama и...
Каждому сотруднику по личному помощнику: как мы подружились с AI-ревью
Вы любите делать код-ревью?
«Не могу дождаться следующего PR!», — ответит абсолютно никто.
Понимаю! Ревью — штука необходимая, но давайте честно: утомляет, забирает время и ресурс, который можно потратить на другие задачи. Делегировать, казалось бы, хорошая идея… но кому? Личного ревьюера на полную ставку ни у кого нет.
Меня зовут Александр Федотов, я руководитель группы разработки в «Лаборатории Касперского». В своей команде я уже не раз пытался упростить ревью: менял подходы, вводил правила, подключал автоматизацию. Но все равно ощущение такое, что можно сделать еще лучше. Тем временем, коллеги реализовали интеграцию Azure DevOps с внутренней AI-моделью ЛК. И вот одним морозным зимним днем, во время настройки каких-то доступов, я попал в раздел Manage Features, где наткнулся на неприметный пунктик Pull Request AI, который позволял воспользоваться преимуществами этой интеграции.
Не теряя времени, я активировал фичу и стал счастливым обладателем раздела AI в каждом PR. С тех пор ревью стало другим. И теперь я не просто верю в автоматизацию — я ею пользуюсь и хочу поделиться с вами своими мыслями об этом. Читать далее
#ai #codereview #pull_request #c_ #c# #azure_devops | @habr_ai
Вы любите делать код-ревью?
«Не могу дождаться следующего PR!», — ответит абсолютно никто.
Понимаю! Ревью — штука необходимая, но давайте честно: утомляет, забирает время и ресурс, который можно потратить на другие задачи. Делегировать, казалось бы, хорошая идея… но кому? Личного ревьюера на полную ставку ни у кого нет.
Меня зовут Александр Федотов, я руководитель группы разработки в «Лаборатории Касперского». В своей команде я уже не раз пытался упростить ревью: менял подходы, вводил правила, подключал автоматизацию. Но все равно ощущение такое, что можно сделать еще лучше. Тем временем, коллеги реализовали интеграцию Azure DevOps с внутренней AI-моделью ЛК. И вот одним морозным зимним днем, во время настройки каких-то доступов, я попал в раздел Manage Features, где наткнулся на неприметный пунктик Pull Request AI, который позволял воспользоваться преимуществами этой интеграции.
Не теряя времени, я активировал фичу и стал счастливым обладателем раздела AI в каждом PR. С тех пор ревью стало другим. И теперь я не просто верю в автоматизацию — я ею пользуюсь и хочу поделиться с вами своими мыслями об этом. Читать далее
#ai #codereview #pull_request #c_ #c# #azure_devops | @habr_ai
Хабр
Каждому сотруднику по личному помощнику: как мы подружились с AI-ревью
Вы любите делать код-ревью? «Не могу дождаться следующего PR!», — ответит абсолютно никто. Понимаю! Ревью — штука необходимая, но давайте честно: утомляет, забирает время и ресурс, который можно...
Мультиагентные системы: как «команда ИИ» берёт сложность штурмом
Когда один ИИ — мало. Нужна команда
Ночные падения, баги «только на проде», фичи, которые нужно вчера — знакомо?
В такие моменты один, даже очень умный, ИИ похож на гения-одиночку на стройке небоскрёба. Он силён, но не масштабируется. Решение — команда ИИ-агентов: аналитик, фиксер, контролёр, координатор. Каждый делает своё, вместе — закрывают задачу.
В этой статье мы покажем, как собрать такую «бригаду» поверх LLM так, чтобы она реально работала с кодом: читала файлы, вносила патчи, гоняла тесты и сама себя проверяла. Без магии — с понятным интерфейсом действий (ACI), с архитектурой, которая объясняет метрики, и с живыми примерами из репозитория.
Что получите за чтение:
простую логику, почему «команда» надёжнее «соло-ИИ» и как это связано с ReAct, self-consistency, процессной проверкой и Mixture-of-Agents;
инженерный взгляд на масштабирование качества не только «размером модели», но и временем вывода (больше попыток → лучше отбор);
практику: минимальные команды запуска, «скриншоты» прогонов и аккуратный ACI, который превращает LLM из советчика в исполнителя;
архитектурный эскиз асинхронного оркестратора поверх реального LLM API — без тяжёлого кода, но с ясной идеей, как это встроить к вам.
Если вы тимлид, архитектор или ресёрчер, это статья-мост: от теории, которая действительно помогает, к работающим сценариям. Откроем крышку, включим свет — и соберём команду ИИ, которая берёт сложность штурмом. Читать далее
#ai #agent #bug #codereview | @habr_ai
Когда один ИИ — мало. Нужна команда
Ночные падения, баги «только на проде», фичи, которые нужно вчера — знакомо?
В такие моменты один, даже очень умный, ИИ похож на гения-одиночку на стройке небоскрёба. Он силён, но не масштабируется. Решение — команда ИИ-агентов: аналитик, фиксер, контролёр, координатор. Каждый делает своё, вместе — закрывают задачу.
В этой статье мы покажем, как собрать такую «бригаду» поверх LLM так, чтобы она реально работала с кодом: читала файлы, вносила патчи, гоняла тесты и сама себя проверяла. Без магии — с понятным интерфейсом действий (ACI), с архитектурой, которая объясняет метрики, и с живыми примерами из репозитория.
Что получите за чтение:
простую логику, почему «команда» надёжнее «соло-ИИ» и как это связано с ReAct, self-consistency, процессной проверкой и Mixture-of-Agents;
инженерный взгляд на масштабирование качества не только «размером модели», но и временем вывода (больше попыток → лучше отбор);
практику: минимальные команды запуска, «скриншоты» прогонов и аккуратный ACI, который превращает LLM из советчика в исполнителя;
архитектурный эскиз асинхронного оркестратора поверх реального LLM API — без тяжёлого кода, но с ясной идеей, как это встроить к вам.
Если вы тимлид, архитектор или ресёрчер, это статья-мост: от теории, которая действительно помогает, к работающим сценариям. Откроем крышку, включим свет — и соберём команду ИИ, которая берёт сложность штурмом. Читать далее
#ai #agent #bug #codereview | @habr_ai
Хабр
Мультиагентные системы: как «команда ИИ» берёт сложность штурмом
Введение: мир, где одному ИИ тесно Софт стал распределённым организмом: микросервисы, бесконечные API, CI/CD, инфраструктура как код, пользователи в разных часовых поясах. Ошибки проявляются не...