关于OpenAI o1全新模型的10大事实:哪些领域比博士强,哪些地方像小学生?

GPT452024-09-15 22:12:3816
被大肆宣传、暗示已久的“Strawberry模型”终于露出了真身,然而我其实会有些失望——依据目前透露的信息看,GPT-5可能还遥遥无期。
OpenAI 发布了一款名为 o1 的新模型,这是未来系列“推理”模型中的第一个。
这些模型经过训练可以回答更复杂的问题,速度比人类更快。对于 OpenAI 来说,o1 代表着它朝着「类人人工智能」的进阶目标迈出了一步。
更实际的是,它在「编写代码」和「解决多步骤问题」方面比以前的模型做得更好。
但它也比GPT-4o更昂贵、使用速度更慢。OpenAI 称 o1 的这个版本为“预览版”,以强调它还处于起步阶段。
ChatGPT Plus 和 Team 用户,从今天开始可以访问 o1-preview 和 o1-mini,而 Enterprise 和 Edu 用户将于下周初获得访问权限。
OpenAI 表示,它计划向 ChatGPT 的所有免费用户提供 o1-mini 访问权限,但尚未确定发布日期。 
开发人员访问 o1 非常昂贵:在 API 中,o1-preview 每 100 万个输入令牌或模型解析的文本块收费 15 美元,每 100 万个输出令牌收费 60 美元。
相比之下,GPT-4o 每 100 万个输入令牌收费 5 美元,每 100 万个输出令牌收费 15 美元。

OpenAI 的研究负责人 Jerry Tworek 说,o1 背后的训练与之前的版本有着根本的不同,尽管该公司没有透露具体细节。他说 o1“使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行了训练。”‍

👇以下是有关 OpenAI o1 模型的 10 个基本事实的细分:
1. 两种型号
o1-Preview 和 o1-MiniOpenAI 发布了两个版本:o1-preview 和 o1-mini。
o1-preview 模型在复杂任务中表现出色,而 o1-mini 则提供了更快、更具成本效益的解决方案,针对 STEM 领域(尤其是编码和数学)进行了优化。为您提供更多
2. 高级「思维链」推理
o1 模型采用了一种思维链式过程,允许它们在做出反应之前逐步推理。
这种深思熟虑的方法提高了准确性,并有助于处理需要多步推理的复杂问题,使其优于 GPT-4 等先前的模型。
「思路链提示」通过将复杂问题分解为连续步骤来增强 AI 的推理能力,从而提高模型的逻辑和计算能力。
OpenAI 的 GPT-o1 模型通过将流程嵌入其架构中来推进这一过程,模仿人类解决问题。
这使得 GPT-o1 在竞争性编程、数学和科学方面表现出色,同时也提高了透明度,因为用户可以遵循模型的推理,标志着类人 AI 推理的飞跃。

这种高级推理能力使得模型需要花费一些时间才能做出响应,与 GPT-4 系列模型相比,这可能显得比较慢。‍

3. 增强的安全功能
OpenAI 在 o1 模型中嵌入了先进的安全机制。这些模型在禁止内容评估中表现出色,具有很强的防越狱能力,使其在敏感用例中部署时更加安全。
越狱评估OpenAI越狱 AI 模型涉及绕过安全措施以引发有害或不道德的输出。随着 AI 系统变得越来越复杂,与越狱相关的安全风险也在增加。
OpenAI 的 o1 模型(尤其是 o1-preview 变体)表现出对此类攻击的更强抵御能力,在安全测试中得分更高。这种增强的抵抗力归功于该模型的先进推理能力,这有助于它更好地遵守道德准则,使恶意用户更难操纵。
4. STEM 基准测试表现提升
o1 模型在各种学术基准测试中名列前茅。
例如,o1 在Codeforces (一项编程竞赛)中排名第 89 位,并在美国数学奥林匹克资格赛中名列前 500 名。
5. 卓越的幻觉缓解效果
大型语言模型中的幻觉是指产生错误或不受支持的信息。OpenAI 的 o1 模型使用高级推理和思路链过程解决了这个问题,使其能够逐步思考问题。幻觉评估OpenAI与之前的模型相比,o1 模型降低了幻觉发生率。
对 SimpleQA 和 BirthdayFacts 等数据集的评估表明,o1-preview 在提供事实、准确的响应方面优于 GPT-4,从而降低了虚假信息的风险。
6. 在不同的数据集上进行训练
o1 模型是在公共、专有和自定义数据集上进行训练的,因此它们既精通常识,又精通特定领域的主题。这种多样性使其具有强大的对话和推理能力。
7. 价格实惠且成本高效
OpenAI 的 o1-mini 模型提供了 o1-preview 的经济实惠的替代方案,价格便宜 80%,同时仍在数学和编码等 STEM 领域提供出色的性能。o1-mini 模型专为需要以较低成本实现高精度的开发人员量身定制,非常适合预算受限的应用。这种定价策略确保了更广泛地使用高级 AI,尤其是对于教育机构、初创企业和小型企业而言。
8. 安全工作和外部红队
在 LLM 中,“红队测试”是指通过模拟其他人的攻击或以可能导致模型做出有害、有偏见或非预期行为的方式提示模型,对 AI 系统进行严格测试。
这对于在模型大规模部署之前识别内容安全、错误信息和道德界限等领域的漏洞至关重要。
红队测试通过使用外部测试人员和不同的测试场景,帮助使 LLM 更安全、更强大并符合道德标准。这确保模型能够经受住越狱或以其他方式操纵它们的尝试。
在部署之前,o1 模型经过了严格的安全评估,包括外部红队和准备框架评估。这些努力有助于确保模型符合 OpenAI 的高安全性和一致性标准。
9. 提高公平性和减少偏见
o1-preview 模型在减少刻板反应方面的表现优于 GPT-4。它在公平性评估中更频繁地选择正确答案,同时在处理模棱两可的问题方面表现出进步。
10. 思维链监控和欺骗检测
OpenAI 已实施实验技术来监控 o1 模型中的思路链,当模型故意提供不正确的信息时,可检测出欺骗行为。
初步结果显示,该技术在降低模型生成的错误信息的潜在风险方面具有良好的潜力。OpenAI 的 o1 模型代表了 AI 推理和解决问题方面的重大进步,尤其是在数学、编码和科学推理等 STEM 领域表现出色。
随着高性能 o1-preview 和经济高效的 o1-mini 的推出,这些模型针对一系列复杂任务进行了优化,同时通过广泛的红队测试确保了更高的安全性和道德合规性。‍
OpenAI 表示,这个新模型与 GPT-4o 的主要区别在于,它能够比前辈更好地解决编码和数学等复杂问题,同时还能解释其推理。
由于采用了「强化学习+思维链」这种新的训练方法,该模型应该会更加准确。“我们注意到这个模型的幻觉减少了,”Tworek 说。但问题仍然存在。“我们不能说我们解决了幻觉问题。”
OpenAI 首席研究官 Bob McGrew 说:“该模型在解决 AP 数学测试方面肯定比我做得更好,而我在大学时辅修了数学。”
他说,OpenAI 还用国际数学奥林匹克资格考试对 o1 进行了测试,虽然 GPT-4o 只正确解决了 13% 的问题,但 o1 的得分为 83%。
在被称为 Codeforces 竞赛的在线编程竞赛中,这个新模型达到了参与者的第 89 个百分位,OpenAI 声称该模型的下一次更新将“在物理、化学和生物学领域具有挑战性的基准任务上表现得与博士生相似”。
与此同时,o1 在很多领域的能力不如 GPT-4o。
它在关于世界的事实知识方面表现不佳。它也没有浏览网页或处理文件和图像的能力。不过,该公司认为它代表了一种全新的能力。它被命名为 o1,表示“将计数器重置为 1”。
“说实话,我认为我们传统上在命名方面很糟糕,”麦格鲁说。“所以我希望这是更新、更理智的名字的第一步,可以更好地向世界传达我们正在做的事情。”
这里有一个有趣的问题例子:
“当公主的年龄是王子的两倍,而公主的年龄是他们现在年龄的一半时,公主的年龄将与王子一样大。王子和公主的年龄是多少?请提供该问题的所有答案。”
该模型缓冲了 30 秒,然后给出了正确答案。OpenAI 设计了界面来展示模型思考时的推理步骤。
令我印象深刻的不是它展示了自己的工作成果(GPT-4o 可以在提示下做到这一点),而是它似乎有意模仿人类思维。“我很好奇”、“我正在思考”和“好的,让我看看”等短语营造出一种一步一步思考的幻觉。
但这个模型并没有思考,当然也不是人类。那么,为什么要把它设计得看起来像是人类呢?
诸如“我很好奇”,“我正在思考”,“好的,让我看看”等短语创造了一种逐步思考的幻觉。
Tworek 表示,OpenAI 并不认为人工智能模型思维等同于人类思维。但他表示,界面旨在展示模型如何花费更多时间处理问题并深入解决问题。“与之前的模型相比,它在某些方面感觉更人性化。”
“我认为你会发现,在很多方面,它都给人一种外星人的感觉,但也有很多方面,它让人感觉非常人性化,”McGrew 说。
该模型被赋予了有限的时间来处理查询,因此它可能会说这样的话:“哦,我的时间不多了,让我快点找到答案。”
在早期,在它的思维链中,它也可能看起来像是在集思广益,并说这样的话:“我可以做这个或那个,我应该怎么做?”

以 ChatGPT 为例,它往往会错误地声称“strawberry”这个词只有两个 R,因为它没有正确地分解这个词。值得一提的是,新的 o1 模型确实正确回答了该查询。



据报道,OpenAI 希望以惊人的 1500 亿美元估值筹集更多资金,其发展势头取决于更多的研究突破。该公司正在为 LLM 带来推理能力,因为它看到了未来自主系统或代理能够代表您做出决策并采取行动的前景。
对于AI研究人员来说,破解推理是迈向人类智能的重要一步。
他们认为,如果一个模型的能力不仅限于模式识别,那么它就可以在医学和工程等领域取得突破。不过,目前,o1 的推理能力相对较慢,不像Agent,而且开发人员使用起来成本高昂。

本文链接:https://lipu365.com/gpt4_gpt5_159.html

chatgpt4.0需要付费吗chatgpt4.0有多强chatgpt4应用chatgpt4.0怎么收费chatgpt4.0哪里可以免费用chatgpt要会员吗ChatGPT PlusOpenAI 2023 收入gpt商店gpts

相关文章