OpenAI发布的GPT-4o能力总结，数学推理能力大幅提升，比全球最好模型提升27%！普通用户可免费使用，API价格下降一半！

GPT452024-05-14 19:39:25690

OpenAI在GPT-4发布一年之后再次更新其基础模型，发布最新的GPT-4o模型，其中o代表的是omni，即“全能”的意思。GPT-4o相比较此前最大的升级是对多模态的支持以及性能的提升，特别是数学推理能力有大幅提高。GPT-4o在各方面比GPT-4更强，但是速度更快，开发者接口的价格则只有一半！

GPT-4o能力介绍

GPT-4o的特点和优势总结如下：

多模态输入输出：GPT-4o能够接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。这意味着它可以更自然地与人进行交互，不仅限于文字交流。
响应速度：GPT-4o对音频输入的响应时间可以快到232毫秒，平均为320毫秒，这与人类在对话中的响应时间相近，提供了更即时的互动体验。在GPT-4o之前的模型，GPT-3.5的语音模式响应约2.8秒，而GPT-4的语音响应约5.4秒，可以看到语音速度响应大幅提高！
性能和成本优势：在处理英语文本和代码方面，GPT-4o的性能与GPT-4 Turbo相当，但在处理非英语文本时有显著改进。同时，它的运行速度更快，使用API的成本降低了50%。
视觉和音频理解能力：与现有模型相比，GPT-4o在视觉和音频理解方面有更好的表现，这意味着它在处理图像和声音时更加准确和有效。

综上所述，GPT-4o是一种多模态、快速、高效且成本更低的模型，特别在视觉和音频处理方面表现优越，使人机交互更加自然流畅。

GPT-4o的综合评测结果

官方发布了GPT-4o在不同评测数据集的结果，其中MMLU评分88.7分，是截止目前为止，作为综合大模型最高的得分。而MATH数学得分76.6，大幅提高，MATH作为数学推理能力测评，一种都非常困难。此前，最高得分是Claude Opus的60.1分，也就是说GPT-4o在MATH数学推理上至少比当前市场上最好的模型提高27.5%！应该说非常强悍。