Заметки LLM-энтузиаста

#yandexgpt #openai #claude #battle #classification

🔥 По горячим следам: YandexGPT 5 Pro против всех (GPT-4.5, Claude-3.7 и другие)

Сегодня с одним из заказчиков провели эксперимент по классификации отзывов. 🧪
Результат оказался приятным сюрпризом: YandexGPT 5 Pro (см. анонс здесь) справилась с задачей лучше, чем GPT-4o, GPT-o1, llama 3, Claude 3.7, Qwen 2.5 и даже новейшая GPT-4.5! 🤯

✨ Ключ к успеху — правильный промпт, улучшенный с помощью Deepseek-R1.

📊 Что тестировали:

Мы проверяли, можно ли решить задачу классификации отзывов одним промптом к модели общего назначения (без использования классификаторов и их дополнительного обучения)

Модели должны были оценить 3 отзыва о ресторане по 7 категориям (еда, сервис, персонал и т.д.) с оценками от 0 до 3.

🏆 Результаты с промптом от Deepseek-R1 (см. скриншот N1):

• YandexGPT 5 Pro: всего 1 ошибка! 👑
• Claude 3.7: середина таблицы (3 ошибки)
• GPT-4.5 и GPT-o1: аутсайдеры 😬

🔄 Результаты с промптом от GPT-o1 (см. скриншот N2):

• Claude 3.7: абсолютный лидер (0 ошибок) 🥇
• GPT-4o: 2-е место (2 ошибки) 🥈
• YandexGPT 5 Pro: в тройке лидеров (3 ошибки) 🥉
• GPT-4.5: снова в аутсайдерах 📉

💡 Интересный вывод:

Похоже, мы нашли идеальную связку для работы: берем обычный "человеческий" промпт → улучшаем его через Deepseek-R1 → запускаем в YandexGPT 5 Pro!
Такой подход продемонстрировал сегодня потрясающие результаты и может стать золотым стандартом для решения сложных задач. 🚀

📝 Подробный разбор с примерами отзывов, промптами и результатами выложил здесь

Про то, где взять Deepseek R1 чтобы протестировать, писал здесь и тут

#ИИ #YandexGPT #GPT #Claude #Эксперимент #Промпты

❤8👏2🤡2🔥1

222 views19:54

About

Blog

Apps

Platform