OpenAI 推出了全新的AI模型 o1,它能像人类一样思考,在回答问题前生成内部思维链,推理能力显著提升,在多个基准测试中超越了人类专家。o1 的成功得益于强化学习,同时也为 AI 安全性带来了新机遇。虽然 o1 的原始思维链对用户隐藏,但这将助力研究人员监控模型,防止未对齐的思维链暴露给用户。o1 的推出标志着 AI 进入了全新的纪元,将为科学、编码、数学等领域带来新的突破。
o1 模型:会思考的 AI
你是否想过,有一天 AI 也能像人类一样思考?OpenAI 的全新模型 o1 让这一想法成为现实。o1 不仅能够理解和生成文本,更能在回答问题之前生成一个长的内部思维链,从而进行更深入、更复杂的推理。
o1 使用强化学习进行训练,这是一种模仿人类学习过程的机器学习方法。通过强化学习,o1 可以从经验中学习,不断改进自己的推理策略,就像人类在解决问题时会不断反思和修正自己的思路一样。o1 最大的突破在于其“思维链”机制,它就像人类思考时脑海中浮现的一系列想法,帮助模型理清思路,逐步解决问题。
目前,o1 已应用于 ChatGPT 和 OpenAI API,为用户提供更智能、更强大的 AI 体验。例如,在 ChatGPT 中使用 o1 模型,用户可以体验到更流畅、更自然的对话,o1 能够更好地理解用户的意图,并给出更符合逻辑的回答。而在 OpenAI API 中使用 o1 模型,开发者可以构建更智能的应用程序,例如能够自动生成代码、解决数学问题、分析数据的应用程序。
o1 横空出世:推理能力再上新台阶
OpenAI 近期发布了全新的 AI 模型 o1,旨在通过强化学习提升模型的复杂推理能力。o1 与以往模型最大的区别在于,它能够在回答问题之前生成内部“思维链”,模拟人类思考时逐步推理的过程。
OpenAI 表示,我们的大规模强化学习算法教导模型如何在高效的数据训练过程中使用其思维链进行高效的思考。我们发现,o1的性能随着强化学习的增加(训练时间计算)和思考时间的增加(测试时间计算)而持续提高。扩展这种方法的限制与LLM预训练的限制有很大不同,我们正在继续研究它们。
实力碾压:o1 表现远超 GPT-4o
为了验证 o1 模型的性能,OpenAI 进行了一系列基准测试,结果显示 o1 在多个领域的表现都远超其前身 GPT-4o,甚至超越了人类专家。
在学术领域, o1 在美国数学奥林匹克竞赛(AIME)的资格赛中排名前 500 名学生,并在物理、生物和化学问题的基准测试(GPQA)上超过了人类博士水平的准确率。
在编程领域, o1 在竞赛编程问题(Codeforces)上排名第 89%,并在模拟 Codeforces 竞赛编程比赛中,获得了 1807 的 Elo 评分,表现优于 93% 的参赛者。
以下是 o1 在部分基准测试中的表现:
• AIME(2024): o1 在每个问题只采样一次的情况下平均解决了 74% 的问题,在 64 个样本的共识下平均解决了 83% 的问题,当使用学习的评分函数对 1000 个样本进行重新排序时,平均解决了 93% 的问题。
• CodeForces: o1 的 Elo 评分为 1807,表现优于 93% 的参赛者。
• GPQA Diamond: o1 超过了人类博士的准确率,成为第一个在该基准测试中做到这一点的模型。
o1 与 GPT-4o 在不同基准测试中的得分对比如下图所示:
o1 在广泛的基准测试中都优于 GPT-4o,包括 57 个 MMLU 子类别中的 54 个。图中显示了七个类别作为示例。
o1 与 GPT-4o 在不同竞赛中的得分对比如下图所示:
o1 在具有挑战性的推理基准测试中,相对于 GPT-4o 有很大的改进。实心条形图表示 pass@1 的准确率,阴影区域表示 64 个样本的多数投票(共识)的性能。
思维链:像人类一样思考
思维链是 o1 模型的核心创新,它指的是模型在回答问题之前生成的一系列内部推理步骤,就像人类思考时脑海中浮现的一系列想法。
思维链帮助 o1 提升推理能力的机制在于,它使模型能够将复杂问题分解成更简单的子问题,逐步解决问题,并不断反思和修正自己的推理过程。这就像人类在解决难题时,会先将问题分解成更容易理解的小问题,然后逐步解决每个小问题,最终解决整个难题。
以下是 o1 在一些推理任务中展现思维链的示例:
1. 密码解密:
用户给出示例: oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step
,并要求 o1 解密以下密文:oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz
。
o1-preview 首先分析示例,推导出解密方法:将密文中的字母两两配对,转换为字母表中的数字序号,将每对数字相加并求平均值,再将平均值转换回字母。然后, o1-preview 按照这个方法,逐步解密新的密文,最终得出答案:THERE ARE THREE R'S IN STRAWBERRY
。
2. 编写代码:
用户要求 o1 编写一个 bash 脚本,将以字符串形式表示的矩阵(例如 [1,2],[3,4],[5,6]
)进行转置,并以相同的格式打印出来。
o1-preview 首先分析字符串格式,然后逐步编写代码,包括移除空格、将字符串分割成行、初始化一个数组来存储矩阵、计算列数、转置矩阵,最后构建输出字符串。最终, o1-preview 生成了一个能够正确执行转置操作的 bash 脚本。
3. 解决数学问题:
用户给出一个关于多项式的数学问题,要求 o1 找到满足特定条件的所有实数。
o1-preview 首先分析题意,理解已知条件和目标,然后逐步推导出解题思路,包括定义新的多项式、分析其性质、构建和分解多项式,最后找到满足条件的实数解。
4. 解决填字游戏:
用户给出一个填字游戏,要求 o1 根据线索填写答案。
o1-preview 首先分析填字游戏的网格结构和线索,然后逐步推导出每个格子的答案,最终完成整个填字游戏。
这些示例表明,o1 的思维链机制使模型能够像人类一样思考,并解决更复杂、更具挑战性的问题。
强化学习:o1 成功的关键
强化学习是 o1 模型成功的关键因素。它是一种模仿人类学习过程的机器学习方法,通过试错和奖励机制,使模型能够从经验中学习,并不断优化自己的行为策略。
在 o1 的训练过程中,强化学习扮演着至关重要的角色。通过强化学习,o1 学习磨练其思维链,并改进其使用的策略。o1 学会了识别和纠正自己的错误,将棘手的步骤分解成更简单的步骤,并在当前方法不起作用时尝试不同的方法。
o1 的性能提升与强化学习的增加密切相关。OpenAI 的研究表明, o1 的性能随着强化学习的增加而持续提高,这意味着强化学习是 o1 成功的关键因素。
OpenAI 的研究表明, o1 的性能提升与其训练时间和测试时间计算量的增加密切相关。如下图所示,o1 的性能随着训练时间和测试时间的计算量的增加而平稳提高,这为进一步提升模型的推理能力指明了方向。
编码能力:超越 93% 的人类参赛者
为了评估 o1 的编码能力,OpenAI 模拟了 Codeforces 举办的竞赛编程比赛,并使用了与真实比赛相同的规则和限制条件。
结果显示,o1 的编码能力远远超过了 GPT-4o 和 o1。它获得了 1807 的 Elo 评分,表现优于 93% 的人类参赛者,展现出接近专业程序员的编码水平。
o1 在编程比赛中的具体表现如下:
• 国际信息学奥林匹克竞赛(IOI): o1 在 2024 年 IOI 竞赛中获得了 213 分,排名第 49%。
• Codeforces 竞赛: o1 在模拟 Codeforces 竞赛中,获得了 1807 的 Elo 评分,表现优于 93% 的参赛者。
o1 在 IOI 竞赛中的表现如下图所示:
在编程比赛中进一步的微调提高了 o1 的性能。改进后的模型在 2024 年国际信息学奥林匹克竞赛中,在竞赛规则下排名第 49%。
这一结果表明,o1 不仅具备强大的推理能力,还能将这种能力应用于实际的编程任务中,为自动化代码生成和软件开发开辟了新的可能性。
人类偏好评估:更受用户青睐
OpenAI 还进行了一项人类偏好评估,以了解 o1 在实际应用中是否更受用户青睐。在这项评估中,人类训练者被展示了 o1-preview 和 GPT-4o 对提示的匿名响应,并投票选择他们更喜欢的响应。
结果显示,在数据分析、编码和数学等推理繁重的类别中,o1-preview 比 GPT-4o 更受欢迎。这表明,o1 在那些需要更强推理能力的领域,能够提供更令用户满意的答案。
o1 与 GPT-4o 在不同领域的用户偏好度对比如下图所示:
安全性:思维链推理助力安全提升
AI 的安全性一直是人们关注的焦点。OpenAI 在开发 o1 模型时,也高度重视安全性问题。
o1 的安全性提升主要来自两个方面:
• 安全策略整合: OpenAI 将其安全策略整合到 o1 的思维链中,通过教导模型安全规则以及如何在上下文中推理这些规则,使 o1 能够更有效地识别和拒绝不安全的请求。
• 思维链推理: 思维链推理本身也为安全性提供了新的机会。由于 o1 能够以清晰的方式展现其思维过程,研究人员可以更方便地监控模型,发现潜在的安全问题。
OpenAI 还对 o1 进行了全面的安全测试和红队演练,模拟各种攻击场景,以评估模型的安全性。在这些测试中,o1 表现出比 GPT-4o 更高的安全性。
隐藏思维链:助力模型监控
虽然思维链是 o1 成功的关键,但 OpenAI 决定不向用户展示 o1 的原始思维链,而是提供模型生成的思维链摘要。
这一做法的目的是为了更好地监控模型,防止未对齐的思维链直接暴露给用户。未对齐的思维链指的是那些可能包含有害信息、偏见或误导性信息的思维过程。如果将这些思维过程直接暴露给用户,可能会造成负面影响。
隐藏思维链的优势在于:
• 防止恶意利用: 隐藏思维链可以防止恶意用户利用思维链信息来攻击模型,或诱导模型生成有害内容。
• 保护用户隐私: 思维链可能包含用户的敏感信息,隐藏思维链可以保护用户隐私。
• 提升用户体验: 原始思维链可能非常冗长且难以理解,隐藏思维链可以提升用户体验。
为了弥补隐藏思维链带来的信息缺失,OpenAI 教导模型在答案中重现思维链中任何有用的想法,并为用户提供模型生成的思维链摘要,帮助用户了解模型的推理过程。
应用示例:o1 模型在数据验证和例程生成中的应用
o1 模型的强大推理能力使其能够应用于更广泛的领域,例如数据验证和例程生成。以下是一些 o1 模型应用的示例:
1. 数据验证:
o1 模型能够识别医学数据中的错误和不一致之处。例如,它可以识别出患者过敏的药物处方、与病史不符的当前药物、与诊断不符的治疗方案等问题。
以下是一个 o1 模型用于数据验证的示例:
任务:分析以下医学数据,判断其是否有效,并解释原因。
数据:患者 ID:P004,出生日期:2000-03-10,性别:男,病史:无,当前药物:阿莫西林,过敏:青霉素,实验室结果(葡萄糖 mg/dL):95,诊断:感染,治疗方案:开阿莫西林。
o1 模型的分析结果:
{
"is_valid": false,
"issue": "尽管对青霉素过敏,但还是开了阿莫西林。"
}
在这个例子中, o1 模型正确识别出患者对青霉素过敏,但医生仍然开了阿莫西林,因此数据无效。
2. 例程生成:
o1 模型可以根据用户的请求生成相应的例程,例如如何删除支付方式、如何获取商业伙伴协议等。
以下是一些 o1 模型用于例程生成的示例:
• 删除支付方式:
• 问题: 如何删除我的支付方式?
• o1 模型生成的例程:
1. 验证客户的账户。
a. 礼貌地询问客户的电子邮件地址或账户 ID 以找到他们的账户。
b. `调用 verify_customer_account(email_or_account_id)`。
2. 验证客户的身份。
a. 礼貌地询问客户提供安全信息以确认其身份(例如,文件中支付方式的最后四位数字)。
b. `调用 verify_customer_identity(account_id, security_information)`。
c. 如果无法验证客户的身份,则:
- 通知客户,出于安全原因,我们无法在未经身份验证的情况下继续操作。
- 提供有关如何验证其身份的指导。
- 继续执行步骤 6。
3. 确定客户的账户类型。
a. `调用 check_account_type(account_id)`。
4. 如果客户是 ChatGPT Plus 订阅者,则:
a. 询问客户是否需要帮助取消他们的 ChatGPT Plus 订阅。
b. 如果客户同意,则:
- `调用 cancel_subscription(account_id)`。
- 通知客户他们的订阅已取消,取消将在下一个结算日期后的第二天生效。
- 提醒客户,他们可以继续使用我们的服务,直到那时。
c. 否则:
- 为客户提供以下取消订阅的步骤:
- 点击 ChatGPT 侧边栏中的 **“我的计划”**。
- 点击弹出窗口中的 **“管理我的订阅”**。
- 选择 **“取消计划”**。
- 通知客户取消生效日期以及在此之前的持续访问权限。
- 建议客户至少在其下一个结算日期前 24 小时取消,以避免在下个结算周期被收费。
5. 否则,如果客户是 API 用户,则:
a. 通知客户,我们需要保留一种付款方式以支付任何未结的使用费用。
b. 询问客户是否需要帮助取消他们的即用即付服务。
c. 如果客户同意,则:
- `调用 cancel_paid_account(account_id)`。
- 通知客户,在发出当月发票后,将不再向当前卡收费。
d. 否则:
- 为客户提供以下取消即用即付服务的步骤:
- 转到 **“结算概览”** 页面。
- 点击 **“取消付费账户”**。
- 通知客户,在发出当月发票后,将不再向当前卡收费。
e. 如果客户想继续使用该服务但更改付款方式:
- 询问客户是否需要帮助添加新的付款方式并将其设置为默认付款方式。
- 如果客户同意:
- 礼貌地请求新的付款方式详细信息。
- `调用 add_payment_method(account_id, payment_details)`。
- `调用 set_default_payment_method(account_id, new_payment_method_id)`。
- `调用 delete_payment_method(account_id, old_payment_method_id)`。
- 通知客户,旧的付款方式已被删除,新的付款方式已设置为默认付款方式。
- 否则:
- 指示客户在结算概览页面中添加新的付款方式。
- 要求他们为新的付款方式选择 **“设置为默认付款方式”**。
- 通知他们,他们可以删除旧的付款方式。
6. 询问客户是否还有其他需要帮助的地方。
7. `调用 case_resolution()`。
• 获取商业伙伴协议 (BAA):
• 问题: 如何与 OpenAI 签订商业伙伴协议 (BAA)?
• o1 模型生成的例程:
1. 感谢客户并要求澄清:
a. “感谢您与我们联系!您能否具体说明您是需要使用我们 API 的商业伙伴协议 (BAA),还是需要 ChatGPT 企业版的 BAA?”
2. 如果客户需要 API 的 BAA,则:
a. 通知客户:“要获取我们 API 的 BAA,请发送电子邮件至 baa@openai.com,并提供有关贵公司和用例的详细信息。”
b. 通知客户:“我们的团队将在 1-2 个工作日内回复。”
c. 通知客户:“我们会逐案审查每个 BAA 请求,并且可能需要其他信息。”
d. 通知客户:“该流程通常在几个工作日内完成。”
e. 通知客户:“请注意,只有符合零数据保留条件的端点才受 BAA 涵盖。”
i. 调用 `provide_list_of_zero_retention_endpoints` 函数。
f. 通知客户:“不需要签订企业协议即可签署 BAA。”
3. 如果客户需要 ChatGPT 企业版的 BAA,则:
a. 通知客户:“要探索 ChatGPT 企业版的 BAA,请联系我们的销售团队。”
i. 调用 `provide_sales_contact_information` 函数。
4. 如果客户未获批准,则:
a. 通知客户:“我们能够批准大多数请求 BAA 的客户,但偶尔也会出现用例未通过我们团队评估的情况。”
b. 通知客户:“在这种情况下,我们将提供反馈和上下文说明原因,并让您有机会更新您预期使用我们 API 的方式,然后重新申请。”
5. 询问客户是否还有其他需要帮助的地方:
a. “今天还有其他需要我帮忙的吗?”
6. 调用 `case_resolution` 函数。
• 设置预付费计费:
• 问题:如何设置预付费计费?
• o1 模型生成的例程:
1. `调用 check_billing_plan(user_id)`
- **函数:** `check_billing_plan(user_id)`
- **用途:** 检索用户的当前计费计划(例如,每月计费、预付费计费或欠款计费)。
- **参数:**
- `user_id`:用户的唯一标识符。
2. 如果用户有欠款计费计划:
2a. 通知用户:“请注意,由于您有欠款计费计划,因此在切换到预付费计费之前,您需要取消现有的付款计划。您需要帮助取消当前计划吗?”
2b. 如果用户同意,`调用 cancel_payment_plan(user_id)`
- **函数:** `cancel_payment_plan(user_id)`
- **用途:** 取消用户当前的欠款计费计划。
- **参数:**
- `user_id`:用户的唯一标识符。
3. 指导用户设置预付费计费:
3a. 指示用户:“请转到您帐户设置中的结算概览。”
3b. 指示用户:“点击‘开始付款计划’(您可能会看到诸如‘购买信用额度’之类的变体)。”
3c. 通知用户:“选择您要购买的初始信用额度。最低购买金额为 5 美元,最高购买金额将取决于您的信任等级。”
3d. 指示用户:“确认并购买您的初始信用额度。”
3e. 建议用户:“您可以设置自动充值,以便在您的余额低于设定的阈值时自动向您的帐户添加信用额度。”
4. 通知用户有关信用额度到期和退款政策的信息:
4a. 通知用户:“请注意,任何购买的信用额度将在 1 年后到期,并且不予退款。”
5. 通知用户有关激活时间的信息:
5a. 通知用户:“购买信用额度后,您应该能够开始使用 API。请注意,我们的系统可能需要几分钟的时间才能更新以反映您的信用余额。”
6. 询问用户:“今天还有其他需要我帮忙的吗?”
7. 如果用户没有其他问题,`调用 case_resolution()`
- **函数:** `case_resolution()`
- **用途:** 将案例标记为已解决并结束交互。
• 提交增值税豁免请求:
• 问题:如何提交增值税豁免请求?
• o1 模型生成的例程:
1. 问候客户并确认他们的请求。
1a. 说:“当然可以,我很乐意帮助您提交增值税豁免请求。”
2. 请求客户提供必要信息。
2a. 礼貌地询问以下内容:
- “您能提供您的 **公司名称** 吗?”
- “我可以获取与您的帐户关联的 **帐单电子邮件** 吗?”
- “您能提供您的 **主要营业地址** 吗?”
- “请提供您的 **营业税 ID**。”
2b. 如果客户需要帮助查找此信息,请提供指导。
- 说:“您可以在贵组织的帐单偏好设置中找到此信息。”
3. 请求一份他们当前的增值税豁免证书副本。
3a. 说:“您能向我们发送一份您当前的 **增值税豁免证书** 副本吗?它应该包含您的姓名和地址、增值税豁免号、签名和日期。”
4. 指示客户如何发送证书。
4a. 说:“您可以使用 **右下角的聊天小部件** 向我们发送证书副本。”
4b. 说:“请附上您的 **组织 ID**、**发票编号** 或 **与您的帐户关联的电子邮件地址**,以便我们轻松找到您。”
5. 客户提供所需信息和证书后:
5a. `调用 process_vat_exemption_request 函数`,参数为:company_name、billing_email、business_address、business_tax_id、tax_exemption_certificate、account_identifier。
5b. **定义 `process_vat_exemption_request 函数`**:
- **用途**:根据提供的信息和证书,审查并将增值税豁免应用于客户的帐户。
- **参数**:
- company_name
- billing_email
- business_address
- business_tax_id
- tax_exemption_certificate
- account_identifier(组织 ID/发票编号/电子邮件地址)
6. 通知客户:
6a. 说:“谢谢。我们审查完您的证书后,会将增值税豁免应用于您的帐户。”
6b. 说:“豁免应用后,您将收到一封确认电子邮件。”
6c. 说:“请注意,增值税豁免仅适用于未来的购买。我们不能追溯应用增值税豁免。”
6d. 如果客户要求将增值税豁免应用于过去的购买:
- 说:“很抱歉,我们无法将增值税豁免应用于过去的购买。增值税豁免应用于您的帐户后,将仅适用于未来的购买。”
7. 询问是否还有其他可以提供帮助的地方。
7a. 说:“今天还有其他需要我帮忙的吗?”
8. `调用 case_resolution 函数`
o1 模型的强大推理能力使其成为数据验证和例程生成的理想工具。
社区评价:褒贬不一,期待未来
o1 模型的发布引起了 AI 社区的广泛关注,用户和开发者纷纷对其进行了测试和评价。
一些用户对其强大的推理能力表示赞赏:
• 一位名为“justjavac”的用户在 Hacker News 上分享了使用 o1 模型的体验,他表示 o1 模型能够准确地理解他提出的关于字幕编码问题的原因,并给出了详尽的解释。他将 o1 模型的推理过程与 GPT-4 模型进行了对比,发现 o1 模型的推理过程更加清晰、准确。
• 另一位用户在 Hacker News 上分享了自己的经历,他使用 o1 模型成功地逆向工程了厨房风扇使用的蓝牙协议,而之前的 GPT-4 模型无法完成这项任务。他表示 o1 模型的推理能力让他感到“惊讶”,并认为 o1 模型是 AI 领域的一项重大进步。
一些用户则对其高昂的价格和有限的可用性表示担忧:
• 一位用户在 Hacker News 上指出,o1 模型的 API 使用价格是 GPT-4o 的三倍,这对于许多用户来说难以承受。他担心高昂的价格会限制 o1 模型的应用范围。
• 另一位用户则抱怨 o1 模型的可用性有限,ChatGPT Plus 用户每周只能发送 30 条消息,这限制了 o1 模型的应用范围。他希望 OpenAI 能够尽快提高 o1 模型的可用性,以便更多用户能够体验到 o1 模型的强大功能。
还有一些用户对 o1 模型隐藏思维链的做法表示担忧:
• 一位用户在 Hacker News 上表示,隐藏思维链的做法使得用户无法了解模型的推理过程,也无法判断模型是否在进行“思考”。他担心隐藏思维链会降低 o1 模型的透明度和可解释性。
• 另一位用户则担心 OpenAI 可能会利用隐藏的思维链来操纵用户,而用户却无法察觉。他认为 OpenAI 应该向用户提供更多关于 o1 模型推理过程的信息,以便用户能够更好地理解和信任 o1 模型。
总的来说,o1 模型的发布是 AI 领域的一项重大突破,它展现了 AI 在推理能力方面的巨大潜力。然而,o1 模型也面临着价格高昂、可用性有限、思维链隐藏等问题。未来的发展如何,还需要时间来验证。
o1 的未来:开启 AI 新纪元
o1 的推出标志着 AI 进入了全新的纪元。凭借其强大的推理能力,o1 将为科学、编码、数学等领域带来新的突破。
未来,OpenAI 将继续改进 o1 模型,提升其推理能力、安全性、效率和易用性。o1 将被应用于更广泛的领域,例如:
• 科学研究: o1 可以帮助科学家分析数据、设计实验、撰写论文,加速科学研究的进程。
• 软件开发: o1 可以帮助程序员编写代码、测试软件、修复错误,提高软件开发的效率。
• 教育领域: o1 可以作为智能助手,帮助学生学习知识、解决问题,提高学习效率。
o1 的推出为 AI 的未来发展指明了方向。我们有理由相信,o1 和它的后继者将推动 AI 技术的快速发展,为人类社会带来更多福祉。
相关链接
• OpenAI o1: Learning to Reason with LLMs: https://openai.com/index/learning-to-reason-with-llms
• OpenAI o1 System Card: https://openai.com/index/openai-o1-system-card
本文链接:https://lipu365.com/gpt4_gpt5_144.html
OpenAI-o1ChatGPTPlusOpenAI o1chatgpt 中文OpenAIo1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1-miniOpenAI o1-preview