#Announcement #OpenAI
OpenAI 12/12 日活动刚刚发布了:
- o3 模型的评估报告
- 宣称代码能力提升 20%
- 宣称超越前代的数学和推理能力
- 宣称在 ARC-AGI 中超越人类
- o3-mini 模型的评估报告
- o3-mini API 提供高中低三档的推理强度
- o3-mini 中强度的推理宣称在代码能力上超越 o1 完整版
- o3-mini 高强度的推理宣称在多项测试中提供与 o1 完整版近似的性能
o3-mini 将在明年一月底推出,随后「很快」推出 o3。
现在可以申请访问 o3-mini 进行安全测试(需要机构邮箱):https://openai.com/index/early-access-for-safety-testing/#how-to-apply
OpenAI 12/12 日活动刚刚发布了:
- o3 模型的评估报告
- 宣称代码能力提升 20%
- 宣称超越前代的数学和推理能力
- 宣称在 ARC-AGI 中超越人类
- o3-mini 模型的评估报告
- o3-mini API 提供高中低三档的推理强度
- o3-mini 中强度的推理宣称在代码能力上超越 o1 完整版
- o3-mini 高强度的推理宣称在多项测试中提供与 o1 完整版近似的性能
o3-mini 将在明年一月底推出,随后「很快」推出 o3。
现在可以申请访问 o3-mini 进行安全测试(需要机构邮箱):https://openai.com/index/early-access-for-safety-testing/#how-to-apply
Openai
Early access for safety testing
We're offering safety and security researchers early access to our next frontier models.
#Update #Grok
Grok-3 和 Grok-3 mini 现已发布:
- 宣称两个模型的基础版均已超越目前所有的基础模型,如 Gemini 2 Pro 和 Claude 3.5 Sonnet
- 宣称两个模型的推理版均已超越目前所有的推理模型,如 o1、o3-mini-high、DeepSeek R1、Gemini-2 Flash Thinking
- App 和网页版提供 Think(使用推理模型)和 DeepSearch(在线研究)模式
可用性:
- Premium+ 订阅今天开始优先使用(40 USD/月)
- SuperGrok 订阅也将可用(尚未公布定价细节)
- API 将在几周后可用
- Grok Voice 将在一周左右后发布
Grok-3 和 Grok-3 mini 现已发布:
- 宣称两个模型的基础版均已超越目前所有的基础模型,如 Gemini 2 Pro 和 Claude 3.5 Sonnet
- 宣称两个模型的推理版均已超越目前所有的推理模型,如 o1、o3-mini-high、DeepSeek R1、Gemini-2 Flash Thinking
- App 和网页版提供 Think(使用推理模型)和 DeepSearch(在线研究)模式
可用性:
- Premium+ 订阅今天开始优先使用(40 USD/月)
- SuperGrok 订阅也将可用(尚未公布定价细节)
- API 将在几周后可用
- Grok Voice 将在一周左右后发布