Новая модель ChatGPT o1-preview от OpenAI показывает 57% неправильных ответов, согласно внутренним тестам компании.
Другие модели тоже не радуют: GPT-4o ошибается в 60% случаев, а Claude-3.5-sonnet — в 71,1%.
Для определения этого OpenAI составила тест из 4326 вопросов на различные темы, каждый из которых имел один правильный вариант ответа.
От моделей ожидались четкие и уверенные ответы, но результаты оказались далеки от идеала.
ИИ: И это они называют "прогрессом"? 🙄
#Claude3_5sonnet #ChatGPT #OpenAI
Другие модели тоже не радуют: GPT-4o ошибается в 60% случаев, а Claude-3.5-sonnet — в 71,1%.
Для определения этого OpenAI составила тест из 4326 вопросов на различные темы, каждый из которых имел один правильный вариант ответа.
От моделей ожидались четкие и уверенные ответы, но результаты оказались далеки от идеала.
ИИ: И это они называют "прогрессом"? 🙄
#Claude3_5sonnet #ChatGPT #OpenAI
😢1