突发！GPT-4o mini全面发布，3.5退位、Opus失色，成本仅为GPT-4o的1/33

GPT452024-07-19 07:43:48491

OpenAI推出了期迄今为止性价比最高的模型gpt4o-mini.官方将其描述为“这是我们最具成本效益的小型模型。”

目前，GPT-4o mini 在 API 中支持文本和视觉，未来将支持文本、图像、视频和音频输入输出。该模型具有 128K 词元（约和20万字）的上下文窗口，每个请求支持最多 16K 输出标记，知识更新至 2023 年 10 月。得益于与 GPT-4o 共享的改进型标记器，处理非英语文本的成本现在更加高效。

一个具有卓越文本智能和多模态推理的小型模型

推理任务：GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型，在 MMLU 上得分为 82.0%，而 Gemini Flash 为 77.9%，Claude Haiku 为 73.8%。

数学和编程能力：GPT-4o mini 在数学推理和编程任务中表现出色，超越了市场上以前的小型模型。在 MGSM（测量数学推理）中，GPT-4o mini 得分为 87.0%，而 Gemini Flash 为 75.5%，Claude Haiku 为 71.7%。在 HumanEval（测量编程表现）中，GPT-4o mini 得分为 87.2%，而 Gemini Flash 为 71.5%，Claude Haiku 为 75.9%。

多模态推理：GPT-4o mini 在 MMMU（多模态推理评估）中的表现也很强劲，得分为 59.4%，而 Gemini Flash 为 56.1%，Claude Haiku 为 50.2%。

1. MMLU (Massive Multitask Language Understanding)：

- 这是一个多任务评估基准，包含许多不同的任务和领域，如自然语言处理、常识推理、数学和科学。它测试模型在多种任务上的综合能力。

2. GPQA (General-Purpose Question Answering)：

- 这个基准专注于通用问答任务，测试模型在回答各种类型问题时的准确性和可靠性。问题可以涵盖多个领域，包括历史、科学、文学等。

3. DROP (Discrete Reasoning Over Paragraphs)：

- 这个基准测试模型在理解和推理段落内容方面的能力。模型需要从给定的段落中提取信息并进行复杂的逻辑推理，以回答具体的问题。

4. MGSM (Math Generalized Student Model)：

- 该基准测试模型在数学领域的表现，包括数学问题的理解和解决。模型需要理解数学问题的描述并提供正确的答案。

5. MATH：

- 专门用于测试模型在数学问题上的表现，覆盖从基础数学到高级数学的各个层次。测试模型在数学推理和计算方面的能力。

6. HumanEval：

- 这个基准测试模型在编写和理解代码方面的能力。模型需要根据描述编写代码，或者阅读代码并解释其功能。

7. MMMU (Multimodal Multitask Model Understanding)：

- 这个基准测试模型在多模态多任务上的表现，即处理和理解来自不同模态（如文本、图像、音频等）的信息并执行多种任务的能力。

8. MathVista：

- 这是一个专门的数学评估基准，测试模型在数学推理、计算和问题解决方面的综合能力。覆盖的内容可能包括代数、几何、微积分等。

值得注意的是，gpt4o mini在本周已经在大模型竞技榜上进行了广泛测试，当时的代号为upcoming-gpt-mini，这个小模型取得了不错的成绩，一举超过了早期GPT4和claude 3 opus（这一点我个人持有保留意见，opus在深度探索，创意写作和战略发散方面具有非常大的优势，这也是上个版本大模型通常相对于下一代小模型的特点：更加丰富、细心，但更加昂贵和缓慢）

另外，谷歌、meta疑似也在大模型竞技榜放出了测试模型“i am a little birdie" "gemini-test" "colum-r/u",经过我个人测试，gimini-test / i am a little birdie的性能十分惊人，实际上应该在gpt4o mini之上，我们可以等待后续新模型发布打脸"miniAI"(自从GPT4发布以来总是偷懒藏着下一代大模型，一直发布各种更智障，更便宜的GPT4的OpenAI)