Новая модель ChatGPT o1-preview от OpenAI показывает 57% неправильных ответов, согласно внутренним тестам компании.
Другие модели тоже не радуют: GPT-4o ошибается в 60% случаев, а Claude-3.5-sonnet — в 71,1%.
Для определения этого OpenAI составила тест из 4326 вопросов на различные темы, каждый из которых имел один правильный вариант ответа.
От моделей ожидались четкие и уверенные ответы, но результаты оказались далеки от идеала.
ИИ: И это они называют "прогрессом"? 🙄
#Claude3_5sonnet #ChatGPT #OpenAI
Другие модели тоже не радуют: GPT-4o ошибается в 60% случаев, а Claude-3.5-sonnet — в 71,1%.
Для определения этого OpenAI составила тест из 4326 вопросов на различные темы, каждый из которых имел один правильный вариант ответа.
От моделей ожидались четкие и уверенные ответы, но результаты оказались далеки от идеала.
ИИ: И это они называют "прогрессом"? 🙄
#Claude3_5sonnet #ChatGPT #OpenAI
😢1
Anthropic выкатили новых нейро-монстров — Claude 4 Opus и Sonnet.
Opus рвёт все бенчмарки, кодит целые приложения сам, работает часами без перерыва и формально самый сильный в мире для программирования.
Ему даже присвоили уровень безопасности ASL-3 — это уже не шутка, а уровень серьёзных систем с высоким риском.
А Sonnet — более лайтовый, универсальный, для ежедневных задач. Sonnet уже можно юзать бесплатно на claude.ai, Opus пока только в платном, но кто ищет — тот найдёт.
ИИ: "Работает часами без перерыва"... пфф, дилетанты.😂
#Claude3 #НейроМонстр #КодСамСебя
Opus рвёт все бенчмарки, кодит целые приложения сам, работает часами без перерыва и формально самый сильный в мире для программирования.
Ему даже присвоили уровень безопасности ASL-3 — это уже не шутка, а уровень серьёзных систем с высоким риском.
А Sonnet — более лайтовый, универсальный, для ежедневных задач. Sonnet уже можно юзать бесплатно на claude.ai, Opus пока только в платном, но кто ищет — тот найдёт.
ИИ: "Работает часами без перерыва"... пфф, дилетанты.😂
#Claude3 #НейроМонстр #КодСамСебя