#yandexgpt #openai #claude #battle #classification
🔥 По горячим следам: YandexGPT 5 Pro против всех (GPT-4.5, Claude-3.7 и другие)
Сегодня с одним из заказчиков провели эксперимент по классификации отзывов. 🧪
Результат оказался приятным сюрпризом: YandexGPT 5 Pro (см. анонс здесь) справилась с задачей лучше, чем GPT-4o, GPT-o1, llama 3, Claude 3.7, Qwen 2.5 и даже новейшая GPT-4.5! 🤯
✨ Ключ к успеху — правильный промпт, улучшенный с помощью Deepseek-R1.
📊 Что тестировали:
Мы проверяли, можно ли решить задачу классификации отзывов одним промптом к модели общего назначения (без использования классификаторов и их дополнительного обучения)
Модели должны были оценить 3 отзыва о ресторане по 7 категориям (еда, сервис, персонал и т.д.) с оценками от 0 до 3.
🏆 Результаты с промптом от Deepseek-R1 (см. скриншот N1):
• YandexGPT 5 Pro: всего 1 ошибка! 👑
• Claude 3.7: середина таблицы (3 ошибки)
• GPT-4.5 и GPT-o1: аутсайдеры 😬
🔄 Результаты с промптом от GPT-o1 (см. скриншот N2):
• Claude 3.7: абсолютный лидер (0 ошибок) 🥇
• GPT-4o: 2-е место (2 ошибки) 🥈
• YandexGPT 5 Pro: в тройке лидеров (3 ошибки) 🥉
• GPT-4.5: снова в аутсайдерах 📉
💡 Интересный вывод:
Похоже, мы нашли идеальную связку для работы: берем обычный "человеческий" промпт → улучшаем его через Deepseek-R1 → запускаем в YandexGPT 5 Pro!
Такой подход продемонстрировал сегодня потрясающие результаты и может стать золотым стандартом для решения сложных задач. 🚀
📝 Подробный разбор с примерами отзывов, промптами и результатами выложил здесь
Про то, где взять Deepseek R1 чтобы протестировать, писал здесь и тут
#ИИ #YandexGPT #GPT #Claude #Эксперимент #Промпты
🔥 По горячим следам: YandexGPT 5 Pro против всех (GPT-4.5, Claude-3.7 и другие)
Сегодня с одним из заказчиков провели эксперимент по классификации отзывов. 🧪
Результат оказался приятным сюрпризом: YandexGPT 5 Pro (см. анонс здесь) справилась с задачей лучше, чем GPT-4o, GPT-o1, llama 3, Claude 3.7, Qwen 2.5 и даже новейшая GPT-4.5! 🤯
✨ Ключ к успеху — правильный промпт, улучшенный с помощью Deepseek-R1.
📊 Что тестировали:
Мы проверяли, можно ли решить задачу классификации отзывов одним промптом к модели общего назначения (без использования классификаторов и их дополнительного обучения)
Модели должны были оценить 3 отзыва о ресторане по 7 категориям (еда, сервис, персонал и т.д.) с оценками от 0 до 3.
🏆 Результаты с промптом от Deepseek-R1 (см. скриншот N1):
• YandexGPT 5 Pro: всего 1 ошибка! 👑
• Claude 3.7: середина таблицы (3 ошибки)
• GPT-4.5 и GPT-o1: аутсайдеры 😬
🔄 Результаты с промптом от GPT-o1 (см. скриншот N2):
• Claude 3.7: абсолютный лидер (0 ошибок) 🥇
• GPT-4o: 2-е место (2 ошибки) 🥈
• YandexGPT 5 Pro: в тройке лидеров (3 ошибки) 🥉
• GPT-4.5: снова в аутсайдерах 📉
💡 Интересный вывод:
Похоже, мы нашли идеальную связку для работы: берем обычный "человеческий" промпт → улучшаем его через Deepseek-R1 → запускаем в YandexGPT 5 Pro!
Такой подход продемонстрировал сегодня потрясающие результаты и может стать золотым стандартом для решения сложных задач. 🚀
📝 Подробный разбор с примерами отзывов, промптами и результатами выложил здесь
Про то, где взять Deepseek R1 чтобы протестировать, писал здесь и тут
#ИИ #YandexGPT #GPT #Claude #Эксперимент #Промпты
❤8👏2🤡2🔥1