Заметки LLM-энтузиаста

#news #openai #o3mini

OpenAI только что дали доступ к своей новой модели o3-mini (доступна и в playground, и по api)

Документация здесь и подробное описание функций тут

Из интересного:

- поддержка Structured Outputs, function calling, Batch API, streaming и поиска в Интернете - все что надо, чтобы делать production-ready агентов на базе этой модели.

- специфичный промптинг

- Keep prompts simple and direct: The models excel at understanding and responding to brief, clear instructions.
- Avoid chain-of-thought prompts: Since these models perform reasoning internally, prompting them to "think step by step" or "explain your reasoning" is unnecessary.

В общем, чем меньше деталей при постановке задачи, тем для данной модели лучше. Можно сфокусироваться на сути проблемы. А о деталях она позаботиться сама (это свойственно всем reasoning моделям).
Подробнее с примерами здесь.

- очень хороша в написании кода
И уже поддерживается и в Windsurf, и в Cursor (причем в режиме Composer агента - то что надо для большинства проектов).

Недостаток: o3-mini does not support vision capabilities, so developers should continue using OpenAI o1 for visual reasoning tasks.
В общем, при работе с кодом нельзя будет использовать скрины ошибок, веб-интерфейса или блок-схем алгоритмов. Для этого продолжаем использовать claude-3-5-sonnet или если нужен reasoning, то модель o1

Цена: модель на 93% дешевле, чем модель o1 и это здорово, но, конечно, не так круто, как у китайских моделей.

Deepseek-R1 стоит в 2 раза дешевле, но имеет почти в 2 раза меньшее контекстное окно и судя по тестам качество его генерации уступает o3-mini. Поэтому здесь, думаю, можно считать, что openai наконец-то перестали завышать цены.

Также o3-mini получается примерно в 3 раза дешевле Claude-35-sonnet
Жаль не работает с изображениями, а так стал бы пользоваться только ей в реальных проектах.

Скорее всего теперь очередь за Anthropic снижать цены на свои модели :)

👍1🔥1🎉1

89 views09:55

Заметки LLM-энтузиаста

#openai #o3mini #coding

Как видно, o3-mini пишет код лучше, чем o1 и тем более чем o1-mini
Источник здесь

👍2💯1

52 viewsedited 10:02

About

Blog

Apps

Platform