OpenAI 昨天发布了 o3-mini，这是其最新的推理优化模型，主打高效推理，兼顾低成本和低延迟，同时在科学、数学和编程方面表现优异

GPT452025-02-05 15:15:06124

OpenAI 昨天发布了 o3-mini，这是其最新的推理优化模型，主打高效推理，兼顾低成本和低延迟，同时在科学、数学和编程方面表现优异。

🔹 性能与用途

继 o1-mini 之后的新一代小型推理模型，专为 STEM（科学、技术、工程、数学） 领域优化
比 o1-mini 更强大，尤其在数学、编程等推理任务中表现优越
适用于 ChatGPT 及 API 端，可供开发者使用

🔹 核心改进

增强的开发者功能：支持函数调用、结构化输出 和 开发者消息，首次让小型推理模型具备完整的生产可用能力
三档推理深度（low, medium, high）：开发者可选择适当的推理复杂度，以便在速度和 准确性 之间找到最佳平衡
搜索整合：可以结合搜索结果 提供最新的互联网信息，并附带相关网页链接

🔹 局限性

不支持视觉任务，如果需要处理图像，则仍需使用 OpenAI o1

🔥 关键亮点

比 o1-mini 更强，推理能力更出色

数学、编程、科学问题表现卓越
56% 的专家更喜欢 o3-mini 的回答
重大错误减少 39%

推理模式可调节

低推理（Low）：与 o1-mini 相当
中推理（Medium）：与 o1 相当
高推理（High）：优于 o1，在数学、编程、科学等任务上表现突出

AI 竞赛 & 基准测试成绩

AIME 2024 数学竞赛：o3-mini（高推理）达到 87.3% 正确率，领先市场
GPQA Diamond（博士级科学问答）：79.7% 准确率，高于以往模型
FrontierMath（研究级数学）：高推理下解答 32% 题目，包含 28% 的高难度题
Codeforces 竞赛编程：Elo 评分 2130
SWE-bench 软件工程任务：达 49.3%，领先所有已发布模型
LiveBench 编程任务：比 o1-high 表现更优，即便在中推理模式下也更高效
通用知识：知识评测优于 o1-mini

更快的响应时间

平均 比 o1-mini 快 24%
平均 比 o1-mini 快 2500ms 输出第一个 token
平均响应时间：7.7 秒（o1-mini 需要 10.16 秒）

更安全

采用 deliberative alignment（深度对齐） 技术，提升安全性
比 GPT-4o 更强的防越狱（jailbreak）能力
通过 OpenAI 安全团队 和 外部专家 评估

试用

众多网友测试表明，o3-mini 在物理模拟、碰撞检测、动画代码生成方面表现出色，甚至比 DeepSeek R1、Claude 等模型更精准，能够一次性生成正确代码。

🔹 突破 DeepSeek R1：真实物理仿真

Flavio Adamo (@flavioAd)
🚨 "o3-mini crushed DeepSeek R1" 🚨

任务：编写 Python 程序，模拟 小球在旋转六边形内弹跳，受 重力和摩擦力 影响，并能与旋转墙壁真实碰撞。
结果：o3-mini 完胜 DeepSeek R1，成功生成正确代码。

🔹 可能是最强 LLM 进行“真实世界物理”计算

Yuchen Jin (@Yuchenj_UW)
"o3-mini might be the best LLM for real-world physics."

任务：编写 Python 脚本，模拟小球在四维超立方体（tesseract）内弹跳。
结果：o3-mini 正确实现了高维物理仿真，展现了强大的几何和物理建模能力。

🔹 多物体物理仿真 & 动画

AK (@_akhaliq)
"OpenAI o3-mini just one shotted this"

用 p5.js 编写动画，模拟 100 个黄色小球在旋转球体内弹跳：
碰撞检测
确保小球保持在球体内部
球体缓慢旋转
结果：o3-mini 一次性生成正确代码（"one-shotted"），比其他模型更精准，展现了强大的推理与编程能力。

🔹 唯一正确完成“美食轮盘”代码

Oscar Le (@oscarle_x)
"Yes, that o3-mini is impressive. The first one doing correctly my food wheel of fortune. o1, R1, and Claude all failed."

任务：编写一个 “食物轮盘”应用，o1、R1、Claude 全部失败，o3-mini 是唯一成功完成的模型。

自测对比

写个贪吃蛇🐍

体验很丝滑~

画个独角兽🦄

o3 mini - 优雅，真是优雅

o1 pro - 怎么觉得是个兔子🐰

本文链接：https://lipu365.com/gpt4_gpt5_682.html

o3-mini

2025年5月最新版教程，用ChatGPT应用程序提升效率的8个真实技巧
嗨，我是小林，一个从2023年就开始折腾ChatGPT的老用户，最近发现身边好多朋友虽然装了ChatGPT的应用程序，但除了问“今天天气怎么样”之类的基础问题，完全没发挥出它的实力，2025年5月）我...
ChatGPT资讯2025-06-104ChatGPT应用程序提升效率实用技巧 chatgpt应用程序
2025年5月最新版为什么ChatGPT用户量突破20亿？教你5个超实用的AI对话技巧
2025年5月，ChatGPT全球用户量突破20亿，成为史上增长最快的AI应用，这一里程碑得益于三大核心优势：多语言交互能力覆盖95%的互联网人口，实时学习机制使回答准确率提升至92%，以及全新情感识...
ChatGPT资讯2025-06-109ChatGPT 用户增长 AI对话技巧 chatgpt用户量
2025年5月最新版教程，手把手教你部署ChatGPT服务器，小白也能轻松上手！
2025年5月更新的ChatGPT服务器部署教程，专为零基础用户打造！教程从云服务器选购（推荐AWS/Aliyun）、系统配置（Ubuntu 22.04 LTS）开始，逐步指导Docker环境安装、G...
ChatGPT资讯2025-06-0916ChatGPT 服务器部署新手教程 chatgpt服务器部署
2025年5月最新版，ChatGPT龙头概念股投资指南—普通人也能抓住AI红利
为什么ChatGPT龙头概念股值得关注？2025年的今天,ChatGPT早已不是“新鲜玩意儿”——它成了我们工作中的智能助手、学习中的私人家教，甚至能帮程序员写代码、替设计师画草图，但你可能不知道的是...
ChatGPT资讯2025-06-0821ChatGPT 龙头概念股 AI红利 ChatGPT龙头概念股
2025年5月更新ChatGPT有中文版吗？3分钟教你玩转AI聊天，新手必看！
2025年5月，ChatGPT正式推出中文版，为用户带来更流畅的母语交互体验，该版本针对中文语境优化，支持多轮对话、创意写作、学习辅助等丰富功能，本文提供3分钟快速上手指南：注册登录后，用户可直接输入...
ChatGPT资讯2025-06-0818ChatGPT 中文版 AI聊天 chatgpt有中文版吗