Модель будет доступна даже для бесплатных юзеров (правда, лимиты будут небольшие, скорее всего). С ней можно будет использовать поиск + она сразу же доступна в API по цене ниже o1.
В зависимости от скейла рассуждений o3 либо немного хуже o1-mini (low режим, самый дешевый), либо немного лучше нее (medium режим), либо обходит даже полноценную o1 (high режим).
🍯 🍯 🍯
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышли результаты o3-mini на LiveBench
(Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми. В общем это почти как арена)
На кодинге модель рвет абсолютно всех с огромным отрывом, и в среднем она лучше R1 (но не по математике).
В математике, кстати, сначала результаты были аномально низкими, но затем организаторы признались, что случайно допустили ошибку, и пересчитали среднее.
(Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми. В общем это почти как арена)
На кодинге модель рвет абсолютно всех с огромным отрывом, и в среднем она лучше R1 (но не по математике).
В математике, кстати, сначала результаты были аномально низкими, но затем организаторы признались, что случайно допустили ошибку, и пересчитали среднее.
Пользователи, кстати, заметили, что o3-mini может думать даже дольше, чем o1 full. Время раздумий в режиме high доходит до 10 минут, а длина цепочек рассуждений достигает 44 страниц
Data Secrets
Вышли результаты o3-mini на LiveBench (Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми. В общем это почти как арена) На кодинге модель рвет абсолютно…
График с LiveBench Coding, кстати
Соотношение цена/качество о3 сильно выделяется, как ни крути
Соотношение цена/качество о3 сильно выделяется, как ни крути