在社交媒体上被调侃了几个月,并隐藏在代号“草莓计划”之下,OpenAI 备受期待的新语言模型终于问世了——它被称为“o1”。
他们没有将其命名为 GPT-5 或 GPT-4.1,确实有些出乎意料。那么,为什么选择“o1”这个名字呢?
根据 OpenAI 的说法,这些新模型的进展如此显著,他们认为有必要将计数器重置为1:
“对于复杂的推理任务来说,这是一次重大进步,代表了人工智能能力的新水平。因此,我们决定将计数器重置为1,并将这个系列命名为 OpenAI o1。”
这些模型的核心重点是通过复杂的任务进行思考和推理,解决更困难的问题。所以,不要指望它像闪电般迅速;相反,它提供了比以往模型更好、更合乎逻辑的答案。
o1系列包含两种型号:o1-mini 和 o1-preview。
o1-preview:这是未来将发布的更先进的 01 模型的预览版,在 AI 推理方面取得了重大进展。
o1-mini:这是一个更快、更经济的推理模型,特别适用于编码任务。作为更小的版本,o1-mini 比 o1-preview 便宜 80%,非常适合需要推理但不需要广泛世界知识的应用场景。
OpenAI 强调,这些新模型通过强化学习进行训练,能够执行复杂推理任务。但在语言模型的背景下,推理到底意味着什么呢?
推理是如何运作的?
就像人类在解决难题前会先仔细思考,AI 模型在尝试解决问题时也会经历一系列推理步骤。
它学会识别和纠正错误,学会将复杂步骤分解为更简单的步骤。当当前的方法不奏效时,它学会尝试不同的方法。
关键在于,推理使模型在生成最终回答之前能够考虑多种路径。
这个过程大致如下:
生成推理令牌
生成可见的完成令牌作为答案
丢弃推理令牌
丢弃推理令牌有助于将上下文集中在核心信息上。
图片来自OpenAI
尽管推理令牌在 API 中不可见,它们仍然占用模型上下文窗口的空间,并计入输出令牌的收费。
这种方法可能较慢,但据 NVIDIA 高级研究员 Jim Fan 所说,我们终于看到了推理速度扩展的范例,并且已在生产环境中推广和部署。
图片来自Jim Fan
Jim的一些关键观点
你不需要一个庞大的模型来进行推理。为了在简单的 QA 基准测试中表现优异,很多参数用于记忆事实。实际上,通过知识推理,例如一个小的“推理核心”知道如何调用浏览器或代码验证器等工具,预训练的计算需求可能减少。
大量计算转移到了服务推理而不是前后训练。LLM 是基于文本的模拟器,通过在模拟器中探索多个策略和情景,模型最终会收敛出一个好的解决方案。这个过程类似于 AlphaGo 的蒙特卡罗树搜索(MCTS),是一个经过深入研究的领域。
o1与GPT-4.0 的对比
为了测试 o1 模型与 GPT-4.0 的表现差异,OpenAI 进行了一系列不同的人类测试和机器学习基准测试。
上面的图表显示,在涉及数学、编码和科学问题的复杂推理基准测试中,o1 模型相比 GPT-4.0 有了显著提升。
在评估 OpenAI 新发布的 o1 模型时,OpenAI 发现它在 GPQA-Diamond 基准测试中表现尤为出色,这是一项评估化学、物理和生物方面专业知识的复杂智力测试。
为比较模型表现,OpenAI 邀请了拥有博士学位的专家回答同样的 GPQA-Diamond 问题。值得注意的是,o1 模型超越了这些人类专家,成为第一个在该基准测试中取得这一成就的模型。虽然这并不意味着 o1 模型在所有方面都优于博士,但它确实表明该模型在解决某些需要高度专业知识的问题上具有强大的能力。
o1模型的实际表现
现在我们来看一下 o1 模型与 GPT-4.0 在具体问题上的表现差异。我们将使用一个经典的测试题:计算单词“草莓”中字母“r”的数量。
提示:单词“草莓”中有几个字母“r”?
o1 模型花费了 33 秒,消耗了 296 个令牌,给出了正确答案。
GPT-4.0 耗时不到 1 秒,使用了 39 个令牌,但没有给出正确答案。
我们再试另一个问题:这次我们要求两个模型列出名字中第三个字母是 “a” 的国家。
提示:说出五个名字中第三个字母为 “a” 的国家。
图片来自Jim Clyde Monge
尽管 01 模型比 GPT-4.0 花费了更多的时间进行“思考”,但最终回答是正确的。
o1也不是完美的
即使是 Sam Altman 也承认,01 模型仍然存在一些缺陷和局限性。初次使用时,它可能会给人留下深刻的印象,但随着更多的使用,用户可能会发现它的一些不足之处。
有时,即使是面对简单问题,比如询问它自己回答中有多少个 “r”,它也会出错。
图片来自Jim Clyde Monge
另一点值得注意的是,尽管 01 在推理任务上表现出了显著的进步,但它并不打算替代 GPT-4.0 在所有应用场景中的位置。
对于需要图像输入、函数调用或需要持续快速响应的应用场景,GPT-4.0 和 GPT-4.0 mini 依然是更合适的选择。
01模型API参数的限制
对于开发者来说,以下是一些 01 聊天完成 API 尚未支持的功能:
模式:仅支持文本,不支持图像。
消息类型:仅支持用户消息和助手消息,不支持系统消息。
流式响应:不支持。
工具:不支持工具、函数调用或响应格式参数。
Logprobs:不支持。
其他参数:温度、top_p 和 n 均固定为 1,存在惩罚和频率惩罚均固定为 0。
批量处理:这些模型不支持助手 API 和批处理 API。
如何获取01模型?
从今天起,所有 ChatGPT Plus 和 Team 用户均可使用 01模型,API 也向第 5 层开发者开放。
对于免费用户,OpenAI 提到他们计划为所有 ChatGPT 免费用户提供 01-mini 访问权限,但尚未提供具体的时间表。
此外,01 模型也可在 OpenAI Playground 中使用。你只需登录 https://platform.openai.com/,然后在 Playground 选项卡下,将模型设置为“01-mini”或“01-preview”。
开发者还可以使用API版本的“01-mini-2024-09-12”和“01-preview-2024-09-12”。
01模型的提示技巧
如果你习惯于使用像 Claude 3.5 Sonnet、Gemini Pro 或 GPT-4.0 这样的模型进行提示,01 模型的提示方式会有所不同。
01模型在直接提示时表现最佳。一些常用的提示工程技术,如少样本提示或提示模型“逐步思考”,可能并不会提高性能,有时甚至会降低其表现。
以下是一些提示技巧的最佳实践:
保持提示简洁:模型能够理解简短、清晰的指令,而无需过多的引导。
避免使用思维链提示:由于这些模型在内部已经进行推理,不需要提示它们“逐步思考”或“解释你的推理”。
使用分隔符提升清晰度:使用分隔符,如引号、XML 标签或章节标题,帮助模型正确理解输入的各部分。
在 RAG(检索增强生成)场景下限制额外上下文:在提供上下文时,仅包括最相关的信息,以避免模型生成过于复杂的回答。
结论
当涉及到聊天问题解决和内容生成时,01 模型表现非常出色。你知道我最期待的是什么吗?它即将集成到编码助手中,比如 Cursor AI。
我已经看到有人将他们的 API 密钥插入到 Cursor 中,并使用 01 模型为他们编写代码。我自己还没试过,但我很期待尝试。
从我早期的测试中,我发现 01 模型的思考、计划和执行能力非常出色。我们几乎见证了代理编码系统的“ChatGPT 时刻”。这些新功能带来的潜力是巨大的。
我真的相信,这一波全新的产品将带来前所未见的变化,特别是在软件开发领域。我已经迫不及待地想看到 01 模型将如何在未来几周内彻底改变我们编写和构建应用程序的方式。原文作者:Jim Clyde Monge
翻译作者:过儿
本文链接:https://lipu365.com/gpt4_gpt5_174.html
chatgpt4.0 安装chatgpt会员可以无限使用吗chatgpt会员支付支持哪些信用卡chatgpt会员有什么好玩的功能吗ChatGPT插件OpenAI soraOpenAI sora官网OpenAI sora视频sora视频sora