我们人类在解决复杂问题时,通常通过“慢思考”过程,而不是一看到问题就立刻得出答案。在这个过程中,我们需要反复思考、反复修改,最终得到合理的解决方案。
但目前的大模型基本都是“快思考”,缺乏“打草稿”的过程,这与人类的“慢思考”有很大区别。这也可能是当前大模型在遇到复杂问题或需要复杂推理任务时表现不佳的原因。那么,是否可以让模型本身进行“慢思考”以提高推理能力呢?
这正是OpenAI刚发布的o1与之前模型最大的区别之一,它支持“慢思考”,从而在推理能力上取得了重大突破。
强大的推理能力是如何获得的?
回顾一下之前是如何提升大模型推理能力的? 通常的做法是结合CoT(Chain-of-Thought)、Agent(智能体)等技术。比如通过提示工程,显性地引入CoT过程,让大模型输出中间的分析过程。举个例子:“计算4+5*3,显示逐步计算过程”,大模型会输出详细的步骤(先计算5*3,再计算4+15,最终得出19),这在一定程度上激发了大模型的推理能力。
如果发现推理结果不对怎么办?可以通过一些Agent的思路不断进行修改,并寻找更好的策略进行尝试,这是目前比较经典的方法。不过,在这里,CoT、Agent等方法是游离于模型之外的。
而o1采用了另一种思路,将上述的CoT和Agent嵌入到大模型内部。大模型在回答用户问题时,内部自行进行CoT、Agent等过程。这种能力是通过训练实现的。根据网上的一些资料,我们可以推测,o1可能是在GPT-4o的基础上继续训练,通过self-play RL框架结合CoT、MCTS等搜索算法(不断寻找最优策略路径)来进行训练。这个self-play框架参考了AlphaGo的成功,训练过程中不断与自身对抗,提高模型效果。
实际上,这仍然面临很大的挑战。最大的挑战是如何基于CoT等技术泛化到任何问题。一方面,对于不同任务,进行逻辑的设计很难;另一方面,有些任务难以用语言来描述搜索策略。o1则通过强化学习方法将这些逻辑嵌入到模型内部,自动寻找最优策略。从目前来看,这似乎是更好的方式。当然,这一领域还有很多探索空间。至少,OpenAI为我们提供了一种新的路径,许多疑问也会逐步得到解答。
OpenAI o1模型带来的一些猜想
我们熟悉的“Scaling laws”主要用于关联模型性能与数据集大小、模型规模和计算量:数据越多、模型越大、计算量越多,模型效果就越好。但OpenAI o1更多强调推理阶段的Scaling:推理阶段花费的时间越多,模型的推理能力提升越显著。那么,推理阶段能做什么呢?其实很多,比如一边生成内容一边验证质量,如果判断是低质量,再通过一些策略反复生成,这个过程当然会占用更多时间。
这是否意味着预训练阶段的Scaling Laws遇到了瓶颈?有这个可能。大模型可以看作知识的压缩体,加入的知识越多,模型就越聪明。那是否还有额外的数据可用于训练大模型成为了衡量持续提升空间的重要依据。目前来看,公开的信息基本已经用得差不多了,即便后续产生新的数据,这些新知识在已用于训练的知识中占比可能很小;另外,即便通过一些手段生成新的数据,其对原有知识体系的影响有多大仍然是个未知数。
在这样的背景下,越来越多人开始关注推理阶段的Scaling,看能否用更复杂的推理逻辑来提高模型性能,这在OpenAI o1上体现得非常明显。因此,o1模型发布后,很多人的第一反应是:是不是模型的预训练已经达到一个瓶颈,需要寻找新的突破口?
这两者可能会持续迭代。预训练可以看作打造一个聪明的基础设施,奠定能力的下限;而基于强化学习的能力增强(如o1中使用的Self-play RL训练)是充分发挥潜在价值的过程,类似于寻找当前基础设施能力的上限。OpenAI o1可以看作是基于GPT-4o基础设施能力上限的探索。
我认为,这个过程还可以持续一段时间,可以乐观地看待基础设施的迭代。但一旦基础设施能力无法持续提高,我们的最终上限也将很快到来。
如何应对OpenAI o1对我们带来的影响?
OpenAI o1的推理速度相比之前的模型慢了不少,主要体现在回答前的“思考”上。这种推理速度基本上无法满足实时性的要求(至少目前如此)。因此,需要思考哪些应用场景更适合使用o1,比如高价值且不要求实时的场景,如科研方法生成、营销内容生成、专利生成等。
总之,需要优先选择复杂的、多步完成、需要一定推理的任务。如果必须用于实时场景,需要在系统设计上考虑异步等方法,或者选择像GPT-4o这样的模型。
Agent概念今年特别火,但落地性较差,主要原因在于基座模型的推理能力不够强。比如,我们设计一个线性工作流程,包含4个流程,如果每个流程的准确率为97%(看起来不错),但最终将任务做对的准确率只有0.88。而且,现阶段的基座能力很难定位问题、回溯到之前的节点,这需要极强的推理能力。工业界中,许多场景对这种准确率的要求很高,甚至不能犯错。这是阻碍Agent系统落地的最根本原因。
因此,推理能力是Agent落地的关键。OpenAI o1的诞生对Agent的落地非常有利。我们至少看到o1在推理上相比GPT-4o有了重大提升,这显然对Agent应用是个大利好。但由于o1的推理效率较低,一些实时性要求高的Agent场景暂时可能不太适合。
推理优化工程领域迎来新的发展
按照当前的技术趋势,优化推理效率几乎是所有公司将面临的问题。按照o1目前的价格,同样的Prompt在o1上的成本可能会增加数百倍(o1 Token本身比GPT贵6倍,而且中间思维过程中生成的大量Token也要计费)。
一个成熟的产品,主要成本在推理成本。按照现在的成本,许多企业无法盈利,除非产品价格很高。所以这是一个非常现实的问题。未来相关的人才可能非常吃香,比如一个月原本的推理成本是1000万,一个工程师通过技术手段降低到原来的80%,相当于一个工程师为企业创造了200万的利润。
AGI与OpenAI的未来
目前的大模型帮助我们提升效率是肯定的。如果流程设计得当,越来越多的日常问题可以被大模型解决,这是一个非常好的状态。
再从技术角度剖析o1,其实现简单来说就是将原有的CoT等方法论嵌入到大模型内部运行,并取得了良好的推理效果。模型的训练在很大程度上借助了AlphaGo时代的方法,并整合了模型对齐、CoT、Agent等技术。从本质上看,并没有太大创新,只是将旧技术以新的方式整合在一起。
但不得不承认,很多问题可以被大模型解决,只要是不需要太多创意、不需要太多思考的任务,大概率都可以被解决。那么,这是否意味着离AGI很近呢?实际上,我们对AGI并没有特别明确的定义,但一个普遍认可的标准是大模型可以帮助我们不断拓展人类认知的边界,就像通过科研不断探索新知识一样。如果按这个标准,目前的大模型离AGI还是很遥远的,甚至按照目前的技术路径,可能永远无法达到。
但这又有什么关系呢?如果能够充分利用大模型解决大部分问题,也是一件很有意义的事情。
这个问题可以从两个方面来看。
首先是OpenAI对人类发展的价值。OpenAI很多时候起到了行业指路明灯的作用,这很关键。人类进步过程中,提出正确的问题往往比解决问题更难。在过去几年大模型的发展中,每一个关键节点都是由OpenAI引领,然后由一堆人去填“坑”。这就是引领性的角色。从ChatGPT、Sora到现在的o1,每一次成就都推动了整个行业的进步,这对社会的发展具有极大的价值。
其次,是否有可能追赶OpenAI?或许有可能。像OpenAI的o1模型,一旦大家知道了其核心技术框架,接下来的几个月里很多企业都会涌入这个方向,能否做出来其实只是时间问题。何况现阶段技术壁垒的周期越来越短,在开放的互联网环境和人才流动下,技术的流动性也在增强。
未来,OpenAI能否持续保持领导地位,取决于两个方面:1. OpenAI是否能持续保持技术前瞻性,可能一些下一代技术已经在内部验证完毕,所以开放前一代产品;2. 大模型领域的上限何时到来。
不管怎样,我们不得不承认OpenAI对整个AI领域的巨大贡献。
本文链接:https://lipu365.com/gpt4_gpt5_155.html
chatgpt4.0实操chatgptplus开通教程chatgpt4.0下载与安装如何使用chatgpt4制作图片chatgpt4.0人工智能chatgpt4.0买了就能用吗chatgpt4.0是开源的吗chatgpt4.0部署条件chatgpt4.0对话上限chatgpt只允许会员登录了吗