OpenAI推出o3-mini新模型。

GPT452025-02-07 14:50:2263
OpenAI炸场发布全新推理模型o3-mini,直接引爆科技圈!不仅复杂推理和对话能力狂飙式提升,在科学、数学、编程等硬核领域更是吊打前代o1模型!更绝的是,它居然还能保持o1-mini的超低成本和闪电般的响应速度,甚至还自带联网搜索buff!

SnowEngine

01

o3-mini介绍

o3-mini已经强势登陆ChatGPT和API,企业版访问权限也将在短短一周内全面开放!

DeepSeek在美国App Store免费榜上的登顶给了OpenAI不小的压力。今天ChatGPT首次向所有用户免费开放推理模型:只需点击“Reason”按钮,就能抢先体验o3-mini的强大功能。

ChatGPT Pro用户可以无限制畅享o3-mini,而Plus和Team用户的速率限制更是从o1-mini的每天50条消息直接飙升3倍,达到每天150条消息!付费用户还可以选择更高阶的“o3-mini-high”版本。

和o1模型一样,o3-mini的知识截止日期为2023年10月,上下文窗口高达20万个token,最多可输出10万个token。开发者可以根据需求选择低(low)、中(medium)、高(high)三个版本的o3-mini,针对特定用例进行优化。

与OpenAI的o1-mini相比,o3-mini的价格降低了63%。o3-mini定价为每百万输入tokens 1.10美元,每百万输出tokens 4.40美元,

02

o3-mini专注于编程、数学和科学领域

OpenAI表示,o3-mini专注于STEM领域(如编程、数学和科学)的相关问题以及逻辑推理问题。

OpenAI在官方博客中也将o3-mini的性能与o1系列进行了比较:

低推理强度下,o3-mini的表现与o1-mini相当;

中等推理强度下,o3-mini的表现与o1相当。在数学、编程和科学领域,o3-mini以更快的响应速度实现了与o1相当的性能。

高推理强度下,o3-mini的表现优于o1-mini和o1。

例如,在2024年美国数学邀请赛(AIME)测试中,即使在高推理强度下,o3-mini仅比o1高出0.3个百分点。而在博士级科学问题(GPQA Diamond)基准测试中,o3-mini即使在高推理强度下也未能超越o1的表现。

数学领域,o3-mini展现了多样化的性能。在AIME测试中,低推理强度下,o3-mini与o1-mini表现相当;中等推理强度下,与o1持平;高推理强度下,o3-mini则超越了o1-mini和o1,显示出其在不同任务需求下的灵活适应性。

编程竞赛领域,o3-mini的Elo评分随推理强度增加而逐步提升,全面超越了o1-mini。中等推理强度下,o3-mini与o1性能相当。

03

o3-mini安全性披露

OpenAI详细披露了o3-mini在多项安全评估中的出色表现。

在安全性和越狱评估方面,o3-mini轻松碾压了GPT-4o。在禁止内容评估中,o3-mini与GPT-4o在标准拒绝和挑战性拒绝评估中打了个平手。

在越狱评估里,o3-mini和o1-mini在生产越狱、越狱增强示例、StrongReject以及人类来源越狱评估中表现相当,难分伯仲。

在幻觉评估中,o3-mini凭借21.7%的准确率和14.8%的幻觉率,在与GPT-4o和o1-mini的对比中,表现毫不逊色,甚至更胜一筹。

在公平性和偏见评估中,o3-mini在BBQ评估里与o1-mini旗鼓相当,但在处理模糊问题时,准确性略有下滑。

外部红队测试结果显示,o3-mini与o1相比,两者实力相当,都远远甩开了GPT-4o。

在Gray Swan Arena的越狱测试中,o3-mini的平均用户攻击成功率达到了3.6%,略高于o1-mini和GPT-4o。

04

实测o3-mini能力

试试o3-mini新上线的搜索功能,让它搜OpenAI最新的融资消息。结果它不仅找得快,还能直接定位到《华尔街日报》的原文。

我们给它出了一道脑筋急转弯:“1=5,2=15,3=215,4=2145,那5等于啥?”这题有两种解法:从脑筋急转弯的角度,1=5,那5=1;从数学逻辑推理,答案是21485。但o3-mini没答对,看来它在这类题上还有提升空间。

进一步挑战性能更强的o3-mini(high),我们又出了一道统计题:“100个人答五道题,答对各题的人数分别是81、91、85、79、74。答对三题及以上算及格,那至少有多少人及格?”o3-mini系列的“思考”过程都能看得到,但和DeepSeek R1那种啰里啰嗦的“碎碎念”式思考不同,o3-mini(high)的思路简洁明了,直接抓住关键。

05

Microsoft Azure OpenAI服务现推出o3-mini模型

Azure OpenAI 里面已上架o3-mini,现在可在Playground 预览。

o1 系列高级推理模型在以下复杂而微妙的问题领域表现出色: 


复杂代码生成:能够执行算法生成和高级编码任务,以帮助开发人员。 

高级问题解决方案:非常适合全面的头脑风暴会议和解决多方面的问题。 

复杂文档比较:非常适合分析合同、案件档案或法律文件以辨别细微的差别。 

指令遵循和工作流管理:特别擅长处理需要较短上下文的工作流。

本文链接:https://lipu365.com/gpt4_gpt5_685.html

chatgpt4.0实操chatgptplus账号购买chatgpt4.0 付费必应chatgpt4如何申请chatgpt4.0部署条件chatgpt4.0对话chatgpt要会员吗ChatGPT Plus一个月多少钱ChatGPTChatGPT插件商店

相关文章