OpenAI 发布全能最新模型 GPT-4o 《OpenAI 震撼发布 GPT-4o!对所有人免费!》后,好评如潮,网友们纷纷试用和发挥脑洞,并献上膜拜之情。
而Bindu Reddy (@bindureddy),Abacus AI 的 CEO,则分享了一项关于 GPT-4o 的初步评估结果,给 GPT-4o 泼了一盆冷水。
🧑💼Bindu Reddy,前 AWS/Google 高管,对人类行为和开源人工通用智能(AGI)充满热情,现在正致力于利用生成性人工智能(Gen AI)构建应用型 AI 和大型语言模型(LLM)代理和系统。
📊Reddy 公布了 GPT-4o 与 GPT-4 在完成特定任务时的对比数据:
- GPT-4o 在 96 项任务中成功完成了 79 项,其中编码任务 65 项中完成了 52 项。
- 相比之下,GPT-4 在同样的 96 项任务中成功完成了 90 项,编码任务同样 65 项中完成了 60 项。
🔍Reddy 指出,尽管 GPT-4o 的处理速度更快,但在难度较高的任务上表现却明显较差,这引发了她的疑惑,并表示正在尝试调试以找出可能的共性问题或原因。
🤔此外,Reddy 还提出了一个疑问,询问是否因为基准测试的难度不够,导致了模型表现的差异。这一提问引发了与 @patmcguinness 和 @den_run_ai 的讨论。
Denis 也附议道:它在LiveCodeBench 基准上确实比 4 月份的 GPT-4 差很多,尤其是中等和困难的任务上。是多模态能力破坏了代码能力?
🔧这项评估结果的公布,不仅展示了 GPT-4o 在某些方面的进步,同时也暴露了在更复杂任务上的挑战。
评测网址:https://livecodebench.github.io/leaderboard.html
本文链接:https://lipu365.com/gpt4_gpt5_115.html
GPT-4oGPT4ogpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o免费GPT-4o官网GPT4o官网