OpenAI 昨天发布了 o3-mini,这是其最新的推理优化模型,主打高效推理,兼顾低成本和低延迟,同时在科学、数学和编程方面表现优异

GPT452025-02-05 15:15:0659

OpenAI 昨天发布了 o3-mini,这是其最新的推理优化模型,主打高效推理,兼顾低成本和低延迟,同时在科学、数学和编程方面表现优异。

🔹 性能与用途

  • 继 o1-mini 之后的新一代小型推理模型,专为 STEM(科学、技术、工程、数学) 领域优化
  • 比 o1-mini 更强大,尤其在数学、编程等推理任务中表现优越
  • 适用于 ChatGPT 及 API 端,可供开发者使用

🔹 核心改进

  • 增强的开发者功能:支持函数调用、结构化输出 和 开发者消息,首次让小型推理模型具备完整的生产可用能力
  • 三档推理深度(low, medium, high):开发者可选择适当的推理复杂度,以便在 速度 和 准确性 之间找到最佳平衡
  • 搜索整合:可以结合搜索结果 提供最新的互联网信息,并附带相关网页链接

🔹 局限性

  • 不支持视觉任务,如果需要处理图像,则仍需使用 OpenAI o1

🔥 关键亮点

  1. 比 o1-mini 更强,推理能力更出色

    • 数学、编程、科学问题表现卓越
    • 56% 的专家更喜欢 o3-mini 的回答
    • 重大错误减少 39%
  2. 推理模式可调节

    • 低推理(Low):与 o1-mini 相当
    • 中推理(Medium):与 o1 相当
    • 高推理(High):优于 o1,在数学、编程、科学等任务上表现突出
  3. AI 竞赛 & 基准测试成绩

    • AIME 2024 数学竞赛:o3-mini(高推理)达到 87.3% 正确率,领先市场
    • GPQA Diamond(博士级科学问答)79.7% 准确率,高于以往模型
    • FrontierMath(研究级数学):高推理下解答 32% 题目,包含 28% 的高难度题
    • Codeforces 竞赛编程:Elo 评分 2130
    • SWE-bench 软件工程任务:达 49.3%,领先所有已发布模型
    • LiveBench 编程任务:比 o1-high 表现更优,即便在中推理模式下也更高效
    • 通用知识:知识评测优于 o1-mini
  4. 更快的响应时间

    • 平均 比 o1-mini 快 24%
    • 平均 比 o1-mini 快 2500ms 输出第一个 token
    • 平均响应时间:7.7 秒(o1-mini 需要 10.16 秒)
  5. 更安全

    • 采用 deliberative alignment(深度对齐) 技术,提升安全性
    • 比 GPT-4o 更强的防越狱(jailbreak)能力
    • 通过 OpenAI 安全团队 和 外部专家 评估

试用

众多网友测试表明,o3-mini 在物理模拟、碰撞检测、动画代码生成方面表现出色,甚至比 DeepSeek R1、Claude 等模型更精准,能够一次性生成正确代码

🔹 突破 DeepSeek R1:真实物理仿真

  • Flavio Adamo (@flavioAd)
    🚨 "o3-mini crushed DeepSeek R1" 🚨
    • 任务:编写 Python 程序,模拟 小球在旋转六边形内弹跳,受 重力和摩擦力 影响,并能与旋转墙壁真实碰撞
    • 结果:o3-mini 完胜 DeepSeek R1,成功生成正确代码。

🔹 可能是最强 LLM 进行“真实世界物理”计算

  • Yuchen Jin (@Yuchenj_UW)
    "o3-mini might be the best LLM for real-world physics."
    • 任务编写 Python 脚本,模拟小球在四维超立方体(tesseract)内弹跳
    • 结果:o3-mini 正确实现了高维物理仿真,展现了强大的几何和物理建模能力。

🔹 多物体物理仿真 & 动画

  • AK (@_akhaliq)
    "OpenAI o3-mini just one shotted this"
    • 用 p5.js 编写动画,模拟 100 个黄色小球在旋转球体内弹跳
    • 碰撞检测
    • 确保小球保持在球体内部
    • 球体缓慢旋转
    • 结果:o3-mini 一次性生成正确代码("one-shotted"),比其他模型更精准,展现了强大的推理与编程能力。

🔹 唯一正确完成“美食轮盘”代码

  • Oscar Le (@oscarle_x)
    "Yes, that o3-mini is impressive. The first one doing correctly my food wheel of fortune. o1, R1, and Claude all failed."
    • 任务:编写一个 “食物轮盘”应用,o1、R1、Claude 全部失败o3-mini 是唯一成功完成的模型

自测对比

写个贪吃蛇🐍

体验很丝滑~ 

画个独角兽🦄

o3 mini - 优雅,真是优雅

o1 pro - 怎么觉得是个兔子🐰

本文链接:https://lipu365.com/gpt4_gpt5_682.html

o3-mini

相关文章