Хабр / ML & AI

LLM as a Judge: опыт оптимизации генератора описаний Pull Request

Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход LLM as a judge — когда сама языковая модель оценивает качество генераций и сравнивает между собой разные варианты описаний. Поделюсь опытом определения критериев качества, сбора валидационного датасета, подбора промптов и выбора модели. Результаты оказались обнадёживающими: метод действительно позволяет улучшить генеративную систему без участия ручной разметки и асессоров. Читать далее

#llm #automaticevaluation #pullrequest #codegeneration #promptengineering #codereview | @habr_ai

Хабр

LLM as a Judge: опыт оптимизации генератора описаний Pull Request

В последние годы языковые модели всё активнее применяются для задач, связанных с программированием. Если раньше разработчики экспериментировали с решениями вроде Code Llama и...

46 views07:29

Хабр / ML & AI

Каждому сотруднику по личному помощнику: как мы подружились с AI-ревью

Вы любите делать код-ревью?

«Не могу дождаться следующего PR!», — ответит абсолютно никто.

Понимаю! Ревью — штука необходимая, но давайте честно: утомляет, забирает время и ресурс, который можно потратить на другие задачи. Делегировать, казалось бы, хорошая идея… но кому? Личного ревьюера на полную ставку ни у кого нет.

Меня зовут Александр Федотов, я руководитель группы разработки в «Лаборатории Касперского». В своей команде я уже не раз пытался упростить ревью: менял подходы, вводил правила, подключал автоматизацию. Но все равно ощущение такое, что можно сделать еще лучше. Тем временем, коллеги реализовали интеграцию Azure DevOps с внутренней AI-моделью ЛК. И вот одним морозным зимним днем, во время настройки каких-то доступов, я попал в раздел Manage Features, где наткнулся на неприметный пунктик Pull Request AI, который позволял воспользоваться преимуществами этой интеграции.

Не теряя времени, я активировал фичу и стал счастливым обладателем раздела AI в каждом PR. С тех пор ревью стало другим. И теперь я не просто верю в автоматизацию — я ею пользуюсь и хочу поделиться с вами своими мыслями об этом. Читать далее

#ai #codereview #pull_request #c_ #c# #azure_devops | @habr_ai

Хабр

Каждому сотруднику по личному помощнику: как мы подружились с AI-ревью

Вы любите делать код-ревью? «Не могу дождаться следующего PR!», — ответит абсолютно никто. Понимаю! Ревью — штука необходимая, но давайте честно: утомляет, забирает время и ресурс, который можно...

62 views07:58

Хабр / ML & AI

Мультиагентные системы: как «команда ИИ» берёт сложность штурмом

Когда один ИИ — мало. Нужна команда

Ночные падения, баги «только на проде», фичи, которые нужно вчера — знакомо?

В такие моменты один, даже очень умный, ИИ похож на гения-одиночку на стройке небоскрёба. Он силён, но не масштабируется. Решение — команда ИИ-агентов: аналитик, фиксер, контролёр, координатор. Каждый делает своё, вместе — закрывают задачу.

В этой статье мы покажем, как собрать такую «бригаду» поверх LLM так, чтобы она реально работала с кодом: читала файлы, вносила патчи, гоняла тесты и сама себя проверяла. Без магии — с понятным интерфейсом действий (ACI), с архитектурой, которая объясняет метрики, и с живыми примерами из репозитория.

Что получите за чтение:

простую логику, почему «команда» надёжнее «соло-ИИ» и как это связано с ReAct, self-consistency, процессной проверкой и Mixture-of-Agents;

инженерный взгляд на масштабирование качества не только «размером модели», но и временем вывода (больше попыток → лучше отбор);

практику: минимальные команды запуска, «скриншоты» прогонов и аккуратный ACI, который превращает LLM из советчика в исполнителя;

архитектурный эскиз асинхронного оркестратора поверх реального LLM API — без тяжёлого кода, но с ясной идеей, как это встроить к вам.

Если вы тимлид, архитектор или ресёрчер, это статья-мост: от теории, которая действительно помогает, к работающим сценариям. Откроем крышку, включим свет — и соберём команду ИИ, которая берёт сложность штурмом. Читать далее

#ai #agent #bug #codereview | @habr_ai

Хабр

Мультиагентные системы: как «команда ИИ» берёт сложность штурмом

Введение: мир, где одному ИИ тесно Софт стал распределённым организмом: микросервисы, бесконечные API, CI/CD, инфраструктура как код, пользователи в разных часовых поясах. Ошибки проявляются не...

39 views04:51

About

Blog

Apps

Platform