O3发布:o3在数学、代码、软件工程等领域能力全面超越o1

GPT452024-12-24 12:36:0613

     OpenAI直播第十二天,发布其最新模型o3系列,包括o3和o3 mini。

     海外评价很高,很高!定义O3达到了AGI的能力,泛化是它最显著的特点!独立思考解决问题,给出答案。未来在coding 以外的领域也能达到专业级别。

O3发布:o3在数学、代码、软件工程等领域能力全面超越o1。在软件工程SWE-bench Verified(AI模型解决现实世界软件问题的能力测试)基准上,o3的代码性能从o1的48.9%提升22.8%,达到71.7%。在Codeforces(顶尖程序员竞赛)中,o3的Elo得分为2727,相较o1提升了800多分,相当于全球位列175名的人类选手。

在AIME 2024数学竞赛评测中,o3取得了96.7%的准确率,性能提升13.4%;在博士级科学问答基准GPQA Diamond上,o3准确率为87.7%,相较于上一代o1提升9.7%。

在今年11月Epoch AI发布的数学基准Frontier Math(目前最难的数学基准测试)上,o3准确率高达25.2%,目前已知所有模型的准确率都低于2%。

ARC-AGI是专门设计用来测试人工智能模型对极其困难的数学和逻辑问题进行推理的能力的基准测试。该测试由François Chollet在2019年发起,旨在评估AI系统在面对未见过的新任务时的适应能力。测试的主要形式为图形逻辑推理,每轮举出3-5个例子,图形的大小为从1x1到30x30的任意大小的网格图形,让AI根据图形变化的规律,预测出下一个图形的形式。该测试结果5年来仅从0%提升至5%,因此被认为是通向AGI的里程碑。

   在这项测试中,o3根据思考程度被成了两个模型:o3 low和o3 high。其中o3 low的得分达75.7%,成为新的榜单TOP1;而o3 high 的得分达87.5%,超越了人类评估的阈值85%。

本文链接:https://lipu365.com/gpt4_gpt5_474.html

chatgpt4.0付费流程chatgpt4.0付费版人工智能chatgpt4.0推荐网页版chatgpt4.0chatgpt会员支付支持哪些信用卡chatgpt怎么开会员GPT4ChatGPT Plus会员GPT Builder创建gpt商店

相关文章