OpenAI发布突破性AI模型o1系列，推理能力大幅跃升重塑行业格局

GPT452024-09-13 07:36:14398

o1系列的首款模型o1-preview已在ChatGPT和大模型API中推出。该模型在多项高难度基准测试中表现优异，相较于前代模型GPT-4o有质的飞跃。在国际数学奥林匹克（IMO）资格考试中，o1模型正确解答了83%的问题，而GPT-4o仅为13%。这一成绩相当于美国数学竞赛前500名的水平，甚至超过了美国数学奥林匹克竞赛的分数线。

在编程能力方面，o1系列同样表现出色。经过进一步训练的o1-ioi模型在2024年国际信息学奥林匹克竞赛（IOI）中获得了213分，达到了排名前49%的水平。在模拟的Codeforces竞赛中，o1模型的Elo评分为1807，表现优于93%的人类竞争对手。

OpenAI在o1系列的开发中创新性地运用了强化学习技术。这种方法使模型能够像人类一样在回答问题前进行深入思考，形成"思维链"（Chain of Thought）。通过这种方式，模型能够识别并纠正错误，尝试不同策略，从而大幅提高其推理能力。OpenAI发现，随着更多的强化学习训练和更长的思考时间，o1的性能持续提升。

除了o1-preview，OpenAI还推出了更快速、更经济的o1-mini版本。o1-mini在STEM（科学、技术、工程和数学）领域的表现与o1-preview相当，但成本降低了80%，为开发者提供了更高效的解决方案。在高中AIME数学竞赛中，o1-mini的表现（70.0%）与o1（74.4%）相当，远超o1-preview（44.6%）。

在安全性方面，OpenAI表示，思维链推理为模型安全和对齐提供了新的思路。通过将行为策略整合到模型的思维链中，可以更有效、稳健地教导人类价值观和原则。o1-preview在关键越狱评估和内部安全基准上都取得了显著改进。

目前，ChatGPT Plus和Team版用户已可有限度使用这些新模型。每位用户每周可向o1-preview发送30条消息，向o1-mini发送50条消息。企业版和教育版用户将从下周开始可以使用这两个模型。对于API用户，达到5级API使用量的开发者可以立即开始使用这两个模型开发应用原型，但限速为20 RPM。