因为大家在第一天就已经把额度用完了。。。
OpenAI发布了迄今为止最会“思考”的大模型OpenAI o1
,简称o1
。
跟以往大模型最大的不同是,o1模型会在做出回答之前花更多时间进行思考(思维链,CoT)。
所以它很擅长解答科学、编码、数学等领域涉及到复杂推理的问题。
o1 一经发布,大家便对它强大的思考能力给惊艳了一下。
纷纷晒出考验 o1 的用法。
“9.8和9.11哪个大?”、“strawberry里面有几个r”这种传统技能就不要说了。
还有复杂的物理、数学问题。
然后大家发现,似乎不论问题难易程度如何(从人类的思考角度),o1 都会进行大量的思考。
超长的思维链必定伴随大量的tokens和计算资源的消耗。
也许是考虑到这一点,OpenAI并没有给大家太多的使用额度;
• o1-preview 30条/每周
• o1-mini 50条/每周。
是的你没看错,是每周,而不是每天
所以两天过去后,现在社区已经看不到很多人在晒o1的用法了。
大概率是大家已经都把额度用完了。
所以,o1 到底有多大用?
我觉得大家应该适当降低对 o1 的期待。
因为它的使用场景会非常受限。
倒不是说 OpenAI 给的额度太少,而是它本来也不适合处理一般日常化的问答任务(这是大多数人使用 AI 的方式)。
在这些问题上,它的综合表现(再考虑到它的“思考”时间)可能还不如 GPT-4o、Claude 3.5 Sonnet 等这些模型。
o1 给我的感觉更像是一个垂直领域模型,
或者是一个严重偏科(擅长理工科)的 AI,
依靠它主推的思维能力(CoT),在 STEM 等涉及到复杂推理步骤的问题上,o1 表现出来了非常大的优势。
但是对于其他场景,o1 的思考方式是不是总能带来正向收益,我觉得还需要打一个问号。
也许成也 CoT,败也 CoT
。
另外我劝充值了会员的用户别再问“9.8 和 9.11 哪个大?”和“ strawberry 里面有几个 r ?”这种又老又笨的问题了。
一是 o1 真不擅长回答这类问题,答对答错也说明不了什么问题,何必拿着手机当暖宝宝用呢;
二是实在有点暴殄天物,还是把有限的使用次数用在更有价值的和能真正体现 o1 能力的问题上吧。
o1的能力在于复杂任务推理
o1 的推理能力目前的确是独一档的,比如下面这个例子(来源于网友)是让 o1 根据一段已知的{密文, 明文}映射信息去破解一段新的密文。
oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step。通过上面的例子解码下文: oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz
o1 思考了整整 76秒之后,给出了破解方法。
如果去看它的思考过程,你会发现它从分解任务,到每一步的思考、尝试、以及解决方式都非常,思路都很清晰且合理。
上面展示出来的还只是思考过程的总结。
因为根据 OpenAI 的说明,他们不会把 o1 原始的思维链展示给用户。
(不仅不会展示,已经有人发现如果你追问关于思维链细节的问题,还会收到 OpenAI 限制账户使用权限的警告)。
所以上面这个例子中,o1 完整的思考过程应该更加详细。
这也是为什么它用了长达 76 秒的思考时间。
每一步寻找解题思路,尝试不同的方法,再自我检查和纠错,都做到了目前大模型能做到的最好。
这些才是 o1 能力的体现。
拿同样的问题去问别的模型,就能发现其中差距了。
我试着用 Claude 3 Sonnet 解答这个问题,一开始它甚至没有完全搞懂题目。
然后做了更清楚的描述后发给它,结果也是无能为力。
其余我试的模型,包括 GPT-4o,Gemini,qwen,glm-4-plus,Deepseek,kimi 等都无一答对,也可以说边都没挨上。
如 OpenAI 所说,
“对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。”
o1的局限
但是这个新水平是不是也意味着它变得更有用了?
我觉得并不是这样,如我上面所说,它更像一个垂类模型,而垂类模型有个特点,就是普通用户用不上;
而用它的领域内专业人士又轻易看不上 AI 的回答,
需要模型的回答质量要非常高且非常精准,才能在专业领域给专业人士提供有价值的信息和观点,否则大模型就仍然是“人类复读机”。
最终要取决于 AI 在多大程度上能取得专业人员的信任。
OpenAI 发布的文章中有几个演示视频,是请了不同领域的研究人员来讲述 o1 如何如何。
说实话这几个视频给我的观感是挺不实在的,因为主要是在讲故事、上价值。
至于具体 o1 到底有哪些实际帮助,说得非常笼统,含糊其辞的。
当前形态的 o1 很难推广开来,个人认为 OpenAI 发布它的目的也不是大面积推广它。
最能体现 o1 能力的实际应用场景是写代码,这应该是唯一能给用户带来实际帮助的场景了(程序员又赢了,或者是输了?)。
注意到 Cursor 上已经支持了 o1-preview 和 o1-mini 两个模型,没有 OpenAI 会员的其实可以通过这里试一下。
结语
总结来说,o1 最大的价值是探索了大模型的技术路线和模型能力边界(可能)。
但是在应用方向上,我并不觉得现阶段的 o1 有太多的积极意义。
不过 OpenAI 把 o1 定位为推理者,根据 OpenAI 对于 AI 的 5 级能力分类,o1 已经触及了第二阶段,被视为这个阶段的第一代模型(所以被命名为 o1),可以看作是一个全新的起点。
接下来期待 o1 这条路能否一直走下去吧。
作者:@卜寒兮
本文链接:https://lipu365.com/gpt4_gpt5_160.html
OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介