为什么刚过去两天,o1 的热度就消失了?

GPT452024-09-17 10:32:37134

因为大家在第一天就已经把额度用完了。。。

OpenAI发布了迄今为止最会“思考”的大模型OpenAI o1,简称o1

跟以往大模型最大的不同是,o1模型会在做出回答之前花更多时间进行思考(思维链,CoT)。

所以它很擅长解答科学、编码、数学等领域涉及到复杂推理的问题

o1 一经发布,大家便对它强大的思考能力给惊艳了一下。

纷纷晒出考验 o1 的用法。

“9.8和9.11哪个大?”、“strawberry里面有几个r”这种传统技能就不要说了。

还有复杂的物理、数学问题。

然后大家发现,似乎不论问题难易程度如何(从人类的思考角度),o1 都会进行大量的思考。

你对这个问题的回答有几个字?

超长的思维链必定伴随大量的tokens计算资源的消耗

也许是考虑到这一点,OpenAI并没有给大家太多的使用额度;

  • • o1-preview 30条/每周

  • • o1-mini 50条/每周。

是的你没看错,是每周,而不是每天

所以两天过去后,现在社区已经看不到很多人在晒o1的用法了。

大概率是大家已经都把额度用完了。

所以,o1 到底有多大用?

我觉得大家应该适当降低对 o1 的期待

因为它的使用场景会非常受限。

倒不是说 OpenAI 给的额度太少,而是它本来也不适合处理一般日常化的问答任务(这是大多数人使用 AI 的方式)。

在这些问题上,它的综合表现(再考虑到它的“思考”时间)可能还不如 GPT-4o、Claude 3.5 Sonnet 等这些模型。

o1 给我的感觉更像是一个垂直领域模型

或者是一个严重偏科(擅长理工科)的 AI,

依靠它主推的思维能力(CoT),在 STEM 等涉及到复杂推理步骤的问题上,o1 表现出来了非常大的优势。

但是对于其他场景,o1 的思考方式是不是总能带来正向收益,我觉得还需要打一个问号。

也许成也 CoT,败也 CoT

另外我劝充值了会员的用户别再问“9.8 和 9.11 哪个大?”和“ strawberry 里面有几个 r ?”这种又老又笨的问题了。

一是 o1 真不擅长回答这类问题,答对答错也说明不了什么问题,何必拿着手机当暖宝宝用呢;

二是实在有点暴殄天物,还是把有限的使用次数用在更有价值的和能真正体现 o1 能力的问题上吧。

o1的能力在于复杂任务推理

o1 的推理能力目前的确是独一档的,比如下面这个例子(来源于网友)是让 o1 根据一段已知的{密文, 明文}映射信息去破解一段新的密文。

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step。通过上面的例子解码下文: oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

o1 思考了整整 76秒之后,给出了破解方法。

如果去看它的思考过程,你会发现它从分解任务,到每一步的思考、尝试、以及解决方式都非常,思路都很清晰且合理。

上面展示出来的还只是思考过程的总结。

因为根据 OpenAI 的说明,他们不会把 o1 原始的思维链展示给用户

(不仅不会展示,已经有人发现如果你追问关于思维链细节的问题,还会收到 OpenAI 限制账户使用权限的警告)。

所以上面这个例子中,o1 完整的思考过程应该更加详细。

这也是为什么它用了长达 76 秒的思考时间。

每一步寻找解题思路尝试不同的方法再自我检查和纠错,都做到了目前大模型能做到的最好。

这些才是 o1 能力的体现。

拿同样的问题去问别的模型,就能发现其中差距了。

我试着用 Claude 3 Sonnet 解答这个问题,一开始它甚至没有完全搞懂题目。

然后做了更清楚的描述后发给它,结果也是无能为力。

其余我试的模型,包括 GPT-4o,Gemini,qwen,glm-4-plus,Deepseek,kimi 等都无一答对,也可以说边都没挨上。

如 OpenAI 所说,

“对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。”

o1的局限

但是这个新水平是不是也意味着它变得更有用了?

我觉得并不是这样,如我上面所说,它更像一个垂类模型,而垂类模型有个特点,就是普通用户用不上;

而用它的领域内专业人士又轻易看不上 AI 的回答,

需要模型的回答质量要非常高且非常精准,才能在专业领域给专业人士提供有价值的信息和观点,否则大模型就仍然是“人类复读机”。

最终要取决于 AI 在多大程度上能取得专业人员的信任。

OpenAI 发布的文章中有几个演示视频,是请了不同领域的研究人员来讲述 o1 如何如何。

说实话这几个视频给我的观感是挺不实在的,因为主要是在讲故事、上价值。

至于具体 o1 到底有哪些实际帮助,说得非常笼统,含糊其辞的。

当前形态的 o1 很难推广开来,个人认为 OpenAI 发布它的目的也不是大面积推广它。

最能体现 o1 能力的实际应用场景是写代码,这应该是唯一能给用户带来实际帮助的场景了(程序员又赢了,或者是输了?)。

注意到 Cursor 上已经支持了 o1-preview 和 o1-mini 两个模型,没有 OpenAI 会员的其实可以通过这里试一下。

结语

总结来说,o1 最大的价值是探索了大模型的技术路线和模型能力边界(可能)。

但是在应用方向上,我并不觉得现阶段的 o1 有太多的积极意义。

不过 OpenAI 把 o1 定位为推理者,根据 OpenAI 对于 AI 的 5 级能力分类,o1 已经触及了第二阶段,被视为这个阶段的第一代模型(所以被命名为 o1),可以看作是一个全新的起点。

接下来期待 o1 这条路能否一直走下去吧。

作者:@卜寒兮

本文链接:https://lipu365.com/gpt4_gpt5_160.html

OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介

相关文章