OpenAI推出了期迄今为止性价比最高的模型gpt4o-mini.官方将其描述为“这是我们最具成本效益的小型模型。”
目前,GPT-4o mini 在 API 中支持文本和视觉,未来将支持文本、图像、视频和音频输入输出。该模型具有 128K 词元(约和20万字)的上下文窗口,每个请求支持最多 16K 输出标记,知识更新至 2023 年 10 月。得益于与 GPT-4o 共享的改进型标记器,处理非英语文本的成本现在更加高效。
一个具有卓越文本智能和多模态推理的小型模型
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型,在 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编程能力:GPT-4o mini 在数学推理和编程任务中表现出色,超越了市场上以前的小型模型。在 MGSM(测量数学推理)中,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在 HumanEval(测量编程表现)中,GPT-4o mini 得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。
多模态推理:GPT-4o mini 在 MMMU(多模态推理评估)中的表现也很强劲,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。
1. MMLU (Massive Multitask Language Understanding):
- 这是一个多任务评估基准,包含许多不同的任务和领域,如自然语言处理、常识推理、数学和科学。它测试模型在多种任务上的综合能力。
2. GPQA (General-Purpose Question Answering):
- 这个基准专注于通用问答任务,测试模型在回答各种类型问题时的准确性和可靠性。问题可以涵盖多个领域,包括历史、科学、文学等。
3. DROP (Discrete Reasoning Over Paragraphs):
- 这个基准测试模型在理解和推理段落内容方面的能力。模型需要从给定的段落中提取信息并进行复杂的逻辑推理,以回答具体的问题。
4. MGSM (Math Generalized Student Model):
- 该基准测试模型在数学领域的表现,包括数学问题的理解和解决。模型需要理解数学问题的描述并提供正确的答案。
5. MATH:
- 专门用于测试模型在数学问题上的表现,覆盖从基础数学到高级数学的各个层次。测试模型在数学推理和计算方面的能力。
6. HumanEval:
- 这个基准测试模型在编写和理解代码方面的能力。模型需要根据描述编写代码,或者阅读代码并解释其功能。
7. MMMU (Multimodal Multitask Model Understanding):
- 这个基准测试模型在多模态多任务上的表现,即处理和理解来自不同模态(如文本、图像、音频等)的信息并执行多种任务的能力。
8. MathVista:
- 这是一个专门的数学评估基准,测试模型在数学推理、计算和问题解决方面的综合能力。覆盖的内容可能包括代数、几何、微积分等。
值得注意的是,gpt4o mini在本周已经在大模型竞技榜上进行了广泛测试,当时的代号为upcoming-gpt-mini,这个小模型取得了不错的成绩,一举超过了早期GPT4和claude 3 opus(这一点我个人持有保留意见,opus在深度探索,创意写作和战略发散方面具有非常大的优势,这也是上个版本大模型通常相对于下一代小模型的特点:更加丰富、细心,但更加昂贵和缓慢)
另外,谷歌、meta疑似也在大模型竞技榜放出了测试模型“i am a little birdie" "gemini-test" "colum-r/u",经过我个人测试,gimini-test / i am a little birdie的性能十分惊人,实际上应该在gpt4o mini之上,我们可以等待后续新模型发布打脸"miniAI"(自从GPT4发布以来总是偷懒藏着下一代大模型,一直发布各种更智障,更便宜的GPT4的OpenAI)
(通过数学题思路提炼测试其推理能力)
极其低廉的价格
以7.25汇率为基准,
GPT-4o mini 的费用打穿了底价
- 每百万tokens的费用为 1.0875 人民币
- 每百万tokens的费用为 4.35 人民币
用途展望
价格低廉,但是性能优异:很多需要多步骤,多代理的工作流可以获得更加好的质量和更低的成本,例如多步骤翻译,多步骤文风修改,多步骤长文章生成,多步骤内容检索。
多模态:一旦OpenAI开放图像识别并且扩大上下文窗口,未来将得以分析视频和音频。通过AI看视频的方式写视频解说文案,课堂总结,课堂知识快速检索等
本文链接:https://lipu365.com/gpt4_gpt5_131.html
chatgpt4.0怎么输入指令chatgpt4.0对话上限chatgpt要会员吗chatgpt会员支付支持哪些信用卡chatgpt怎么开会员ChatGPT Plus怎么支付OpenAIChatGPT的自定义版本OpenAI soraOpenAI sora官网