突发!GPT-4o mini全面发布,3.5退位、Opus失色,成本仅为GPT-4o的1/33

GPT452024-07-19 07:43:48247

OpenAI推出了期迄今为止性价比最高的模型gpt4o-mini.官方将其描述为“这是我们最具成本效益的小型模型。”

目前,GPT-4o mini 在 API 中支持文本和视觉,未来将支持文本、图像、视频和音频输入输出。该模型具有 128K 词元(约和20万字)的上下文窗口,每个请求支持最多 16K 输出标记,知识更新至 2023 年 10 月。得益于与 GPT-4o 共享的改进型标记器,处理非英语文本的成本现在更加高效。

一个具有卓越文本智能和多模态推理的小型模型

推理任务:GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型,在 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。

数学和编程能力:GPT-4o mini 在数学推理和编程任务中表现出色,超越了市场上以前的小型模型。在 MGSM(测量数学推理)中,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在 HumanEval(测量编程表现)中,GPT-4o mini 得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。

多模态推理:GPT-4o mini 在 MMMU(多模态推理评估)中的表现也很强劲,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。

1. MMLU (Massive Multitask Language Understanding):

   - 这是一个多任务评估基准,包含许多不同的任务和领域,如自然语言处理、常识推理、数学和科学。它测试模型在多种任务上的综合能力。

2. GPQA (General-Purpose Question Answering):

   - 这个基准专注于通用问答任务,测试模型在回答各种类型问题时的准确性和可靠性。问题可以涵盖多个领域,包括历史、科学、文学等。

3. DROP (Discrete Reasoning Over Paragraphs):

   - 这个基准测试模型在理解和推理段落内容方面的能力。模型需要从给定的段落中提取信息并进行复杂的逻辑推理,以回答具体的问题。

4. MGSM (Math Generalized Student Model):

   - 该基准测试模型在数学领域的表现,包括数学问题的理解和解决。模型需要理解数学问题的描述并提供正确的答案。

5. MATH:

   - 专门用于测试模型在数学问题上的表现,覆盖从基础数学到高级数学的各个层次。测试模型在数学推理和计算方面的能力。

6. HumanEval:

   - 这个基准测试模型在编写和理解代码方面的能力。模型需要根据描述编写代码,或者阅读代码并解释其功能。

7. MMMU (Multimodal Multitask Model Understanding):

   - 这个基准测试模型在多模态多任务上的表现,即处理和理解来自不同模态(如文本、图像、音频等)的信息并执行多种任务的能力。

8. MathVista:

   - 这是一个专门的数学评估基准,测试模型在数学推理、计算和问题解决方面的综合能力。覆盖的内容可能包括代数、几何、微积分等。

突发!GPT-4o mini全面发布,3.5退位、Opus失色,成本仅为GPT-4o的1/33

值得注意的是,gpt4o mini在本周已经在大模型竞技榜上进行了广泛测试,当时的代号为upcoming-gpt-mini,这个小模型取得了不错的成绩,一举超过了早期GPT4和claude 3 opus(这一点我个人持有保留意见,opus在深度探索,创意写作和战略发散方面具有非常大的优势,这也是上个版本大模型通常相对于下一代小模型的特点:更加丰富、细心,但更加昂贵和缓慢)

另外,谷歌、meta疑似也在大模型竞技榜放出了测试模型“i am a little birdie" "gemini-test" "colum-r/u",经过我个人测试,gimini-test / i am a little birdie的性能十分惊人,实际上应该在gpt4o mini之上,我们可以等待后续新模型发布打脸"miniAI"(自从GPT4发布以来总是偷懒藏着下一代大模型,一直发布各种更智障,更便宜的GPT4的OpenAI)

突发!GPT-4o mini全面发布,3.5退位、Opus失色,成本仅为GPT-4o的1/33

(通过数学题思路提炼测试其推理能力)

极其低廉的价格

以7.25汇率为基准,

GPT-4o mini 的费用打穿了底价

- 每百万tokens的费用为 1.0875 人民币

- 每百万tokens的费用为 4.35 人民币

用途展望

价格低廉,但是性能优异:很多需要多步骤,多代理的工作流可以获得更加好的质量和更低的成本,例如多步骤翻译,多步骤文风修改,多步骤长文章生成,多步骤内容检索。

多模态:一旦OpenAI开放图像识别并且扩大上下文窗口,未来将得以分析视频和音频。通过AI看视频的方式写视频解说文案,课堂总结,课堂知识快速检索等

本文链接:https://lipu365.com/gpt4_gpt5_131.html

chatgpt4.0怎么输入指令chatgpt4.0对话上限chatgpt要会员吗chatgpt会员支付支持哪些信用卡chatgpt怎么开会员ChatGPT Plus怎么支付OpenAIChatGPT的自定义版本OpenAI soraOpenAI sora官网

相关文章