OpenAI推出o3-mini新模型。

GPT452025-02-07 14:50:22136

OpenAI炸场发布全新推理模型o3-mini，直接引爆科技圈！不仅复杂推理和对话能力狂飙式提升，在科学、数学、编程等硬核领域更是吊打前代o1模型！更绝的是，它居然还能保持o1-mini的超低成本和闪电般的响应速度，甚至还自带联网搜索buff！

SnowEngine

01

o3-mini介绍

o3-mini已经强势登陆ChatGPT和API，企业版访问权限也将在短短一周内全面开放！

DeepSeek在美国App Store免费榜上的登顶给了OpenAI不小的压力。今天ChatGPT首次向所有用户免费开放推理模型：只需点击“Reason”按钮，就能抢先体验o3-mini的强大功能。

ChatGPT Pro用户可以无限制畅享o3-mini，而Plus和Team用户的速率限制更是从o1-mini的每天50条消息直接飙升3倍，达到每天150条消息！付费用户还可以选择更高阶的“o3-mini-high”版本。

和o1模型一样，o3-mini的知识截止日期为2023年10月，上下文窗口高达20万个token，最多可输出10万个token。开发者可以根据需求选择低（low）、中（medium）、高（high）三个版本的o3-mini，针对特定用例进行优化。

与OpenAI的o1-mini相比，o3-mini的价格降低了63%。o3-mini定价为每百万输入tokens 1.10美元，每百万输出tokens 4.40美元,

02

o3-mini专注于编程、数学和科学领域

OpenAI表示，o3-mini专注于STEM领域（如编程、数学和科学）的相关问题以及逻辑推理问题。

OpenAI在官方博客中也将o3-mini的性能与o1系列进行了比较：

在低推理强度下，o3-mini的表现与o1-mini相当；

在中等推理强度下，o3-mini的表现与o1相当。在数学、编程和科学领域，o3-mini以更快的响应速度实现了与o1相当的性能。

在高推理强度下，o3-mini的表现优于o1-mini和o1。

例如，在2024年美国数学邀请赛（AIME）测试中，即使在高推理强度下，o3-mini仅比o1高出0.3个百分点。而在博士级科学问题（GPQA Diamond）基准测试中，o3-mini即使在高推理强度下也未能超越o1的表现。

在数学领域，o3-mini展现了多样化的性能。在AIME测试中，低推理强度下，o3-mini与o1-mini表现相当；中等推理强度下，与o1持平；高推理强度下，o3-mini则超越了o1-mini和o1，显示出其在不同任务需求下的灵活适应性。

在编程竞赛领域，o3-mini的Elo评分随推理强度增加而逐步提升，全面超越了o1-mini。中等推理强度下，o3-mini与o1性能相当。

03

o3-mini安全性披露

OpenAI详细披露了o3-mini在多项安全评估中的出色表现。

在安全性和越狱评估方面，o3-mini轻松碾压了GPT-4o。在禁止内容评估中，o3-mini与GPT-4o在标准拒绝和挑战性拒绝评估中打了个平手。

在越狱评估里，o3-mini和o1-mini在生产越狱、越狱增强示例、StrongReject以及人类来源越狱评估中表现相当，难分伯仲。

在幻觉评估中，o3-mini凭借21.7%的准确率和14.8%的幻觉率，在与GPT-4o和o1-mini的对比中，表现毫不逊色，甚至更胜一筹。

在公平性和偏见评估中，o3-mini在BBQ评估里与o1-mini旗鼓相当，但在处理模糊问题时，准确性略有下滑。

外部红队测试结果显示，o3-mini与o1相比，两者实力相当，都远远甩开了GPT-4o。

在Gray Swan Arena的越狱测试中，o3-mini的平均用户攻击成功率达到了3.6%，略高于o1-mini和GPT-4o。

04

实测o3-mini能力

试试o3-mini新上线的搜索功能，让它搜OpenAI最新的融资消息。结果它不仅找得快，还能直接定位到《华尔街日报》的原文。

我们给它出了一道脑筋急转弯：“1=5，2=15，3=215，4=2145，那5等于啥？”这题有两种解法：从脑筋急转弯的角度，1=5，那5=1；从数学逻辑推理，答案是21485。但o3-mini没答对，看来它在这类题上还有提升空间。

进一步挑战性能更强的o3-mini(high)，我们又出了一道统计题：“100个人答五道题，答对各题的人数分别是81、91、85、79、74。答对三题及以上算及格，那至少有多少人及格？”o3-mini系列的“思考”过程都能看得到，但和DeepSeek R1那种啰里啰嗦的“碎碎念”式思考不同，o3-mini(high)的思路简洁明了，直接抓住关键。