o1系列的首款模型o1-preview已在ChatGPT和大模型API中推出。该模型在多项高难度基准测试中表现优异,相较于前代模型GPT-4o有质的飞跃。在国际数学奥林匹克(IMO)资格考试中,o1模型正确解答了83%的问题,而GPT-4o仅为13%。这一成绩相当于美国数学竞赛前500名的水平,甚至超过了美国数学奥林匹克竞赛的分数线。
在编程能力方面,o1系列同样表现出色。经过进一步训练的o1-ioi模型在2024年国际信息学奥林匹克竞赛(IOI)中获得了213分,达到了排名前49%的水平。在模拟的Codeforces竞赛中,o1模型的Elo评分为1807,表现优于93%的人类竞争对手。
OpenAI在o1系列的开发中创新性地运用了强化学习技术。这种方法使模型能够像人类一样在回答问题前进行深入思考,形成"思维链"(Chain of Thought)。通过这种方式,模型能够识别并纠正错误,尝试不同策略,从而大幅提高其推理能力。OpenAI发现,随着更多的强化学习训练和更长的思考时间,o1的性能持续提升。
除了o1-preview,OpenAI还推出了更快速、更经济的o1-mini版本。o1-mini在STEM(科学、技术、工程和数学)领域的表现与o1-preview相当,但成本降低了80%,为开发者提供了更高效的解决方案。在高中AIME数学竞赛中,o1-mini的表现(70.0%)与o1(74.4%)相当,远超o1-preview(44.6%)。
在安全性方面,OpenAI表示,思维链推理为模型安全和对齐提供了新的思路。通过将行为策略整合到模型的思维链中,可以更有效、稳健地教导人类价值观和原则。o1-preview在关键越狱评估和内部安全基准上都取得了显著改进。
目前,ChatGPT Plus和Team版用户已可有限度使用这些新模型。每位用户每周可向o1-preview发送30条消息,向o1-mini发送50条消息。企业版和教育版用户将从下周开始可以使用这两个模型。对于API用户,达到5级API使用量的开发者可以立即开始使用这两个模型开发应用原型,但限速为20 RPM。
OpenAI表示,未来将持续改进模型性能,并计划添加网络浏览、文件和图像上传等功能,以提升模型的实用性。同时,公司还将继续开发和发布GPT系列模型。
这一突破性进展不仅再次证明了OpenAI在AI领域的领先地位,也为AI在科学研究、编程、数学等专业领域的应用开辟了新的可能性。o1系列模型的发布标志着AI技术进入了一个新的发展阶段,有望在解决复杂问题、推动科技创新等方面发挥更大的作用,为人类社会带来深远影响。
本文链接:https://lipu365.com/gpt4_gpt5_143.html
OpenAI-o1ChatGPTPlusOpenAI o1chatgpt 中文OpenAIo1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1-miniOpenAI o1-preview