OpenAI 昨天发布了 o3-mini,这是其最新的推理优化模型,主打高效推理,兼顾低成本和低延迟,同时在科学、数学和编程方面表现优异。
🔹 性能与用途
继 o1-mini 之后的新一代小型推理模型,专为 STEM(科学、技术、工程、数学) 领域优化 比 o1-mini 更强大,尤其在数学、编程等推理任务中表现优越 适用于 ChatGPT 及 API 端,可供开发者使用
🔹 核心改进
增强的开发者功能:支持函数调用、结构化输出 和 开发者消息,首次让小型推理模型具备完整的生产可用能力 三档推理深度(low, medium, high):开发者可选择适当的推理复杂度,以便在 速度 和 准确性 之间找到最佳平衡 搜索整合:可以结合搜索结果 提供最新的互联网信息,并附带相关网页链接
🔹 局限性
不支持视觉任务,如果需要处理图像,则仍需使用 OpenAI o1
🔥 关键亮点
比 o1-mini 更强,推理能力更出色
数学、编程、科学问题表现卓越 56% 的专家更喜欢 o3-mini 的回答 重大错误减少 39% 推理模式可调节
低推理(Low):与 o1-mini 相当 中推理(Medium):与 o1 相当 高推理(High):优于 o1,在数学、编程、科学等任务上表现突出 AI 竞赛 & 基准测试成绩
AIME 2024 数学竞赛:o3-mini(高推理)达到 87.3% 正确率,领先市场 GPQA Diamond(博士级科学问答):79.7% 准确率,高于以往模型 FrontierMath(研究级数学):高推理下解答 32% 题目,包含 28% 的高难度题 Codeforces 竞赛编程:Elo 评分 2130 SWE-bench 软件工程任务:达 49.3%,领先所有已发布模型 LiveBench 编程任务:比 o1-high 表现更优,即便在中推理模式下也更高效 通用知识:知识评测优于 o1-mini 更快的响应时间
平均 比 o1-mini 快 24% 平均 比 o1-mini 快 2500ms 输出第一个 token 平均响应时间:7.7 秒(o1-mini 需要 10.16 秒) 更安全
采用 deliberative alignment(深度对齐) 技术,提升安全性 比 GPT-4o 更强的防越狱(jailbreak)能力 通过 OpenAI 安全团队 和 外部专家 评估
试用
众多网友测试表明,o3-mini 在物理模拟、碰撞检测、动画代码生成方面表现出色,甚至比 DeepSeek R1、Claude 等模型更精准,能够一次性生成正确代码。
🔹 突破 DeepSeek R1:真实物理仿真
Flavio Adamo (@flavioAd)
🚨 "o3-mini crushed DeepSeek R1" 🚨任务:编写 Python 程序,模拟 小球在旋转六边形内弹跳,受 重力和摩擦力 影响,并能与旋转墙壁真实碰撞。 结果:o3-mini 完胜 DeepSeek R1,成功生成正确代码。
🔹 可能是最强 LLM 进行“真实世界物理”计算
Yuchen Jin (@Yuchenj_UW)
"o3-mini might be the best LLM for real-world physics."任务:编写 Python 脚本,模拟小球在四维超立方体(tesseract)内弹跳。 结果:o3-mini 正确实现了高维物理仿真,展现了强大的几何和物理建模能力。
🔹 多物体物理仿真 & 动画
AK (@_akhaliq)
"OpenAI o3-mini just one shotted this"用 p5.js 编写动画,模拟 100 个黄色小球在旋转球体内弹跳: 碰撞检测 确保小球保持在球体内部 球体缓慢旋转 结果:o3-mini 一次性生成正确代码("one-shotted"),比其他模型更精准,展现了强大的推理与编程能力。
🔹 唯一正确完成“美食轮盘”代码
Oscar Le (@oscarle_x)
"Yes, that o3-mini is impressive. The first one doing correctly my food wheel of fortune. o1, R1, and Claude all failed."任务:编写一个 “食物轮盘”应用,o1、R1、Claude 全部失败,o3-mini 是唯一成功完成的模型。
自测对比
写个贪吃蛇🐍
体验很丝滑~
画个独角兽🦄
o3 mini - 优雅,真是优雅
o1 pro - 怎么觉得是个兔子🐰