LLM as a Judge: опыт оптимизации генератора описаний Pull Request
Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход LLM as a judge — когда сама языковая модель оценивает качество генераций и сравнивает между собой разные варианты описаний. Поделюсь опытом определения критериев качества, сбора валидационного датасета, подбора промптов и выбора модели. Результаты оказались обнадёживающими: метод действительно позволяет улучшить генеративную систему без участия ручной разметки и асессоров. Читать далее
#llm #automaticevaluation #pullrequest #codegeneration #promptengineering #codereview | @habr_ai
Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход LLM as a judge — когда сама языковая модель оценивает качество генераций и сравнивает между собой разные варианты описаний. Поделюсь опытом определения критериев качества, сбора валидационного датасета, подбора промптов и выбора модели. Результаты оказались обнадёживающими: метод действительно позволяет улучшить генеративную систему без участия ручной разметки и асессоров. Читать далее
#llm #automaticevaluation #pullrequest #codegeneration #promptengineering #codereview | @habr_ai
Хабр
LLM as a Judge: опыт оптимизации генератора описаний Pull Request
В последние годы языковые модели всё активнее применяются для задач, связанных с программированием. Если раньше разработчики экспериментировали с решениями вроде Code Llama и...