【OpenAI于5月14日凌晨发布革命性多模态模型GPT-4o,"o"代表"omni"(全能),实现文本、语音、图像原生端到端处理,响应速度逼近人类对话(平均320毫秒)。该模型即日起免费开放,付费用户仍享更高额度。GPT-4o在视觉和音频理解上大幅提升,能实时分析环境、解读表情语气,甚至哼唱自创歌曲。特别亮点包括:图像生成直输DALL·E 3效果,支持50种语言,中文性能提升30%。网友实测其"丝滑"交互能力,如根据手写公式秒解数学题、通过照片分析代码等。此次升级被视作AGI的重要跃进,免费策略或将对AI行业竞争格局产生深远冲击。(198字)
超越期待的图像生成能力
新模型对文本的还原精准到令人惊叹——无论是路标上的文字排版,还是复杂场景中的多对象关联,细节处理都近乎完美,更值得关注的是,系统能结合聊天上下文智能调整,甚至能将用户上传的图片转化为创作灵感。
四大核心升级
1、精准文本融合
符号与图像的结合不再是难题,如图例所示,提示词中的"禁止停车"标志被完整还原,连字体间距都分毫不差。
2、对话式渐进优化
设计游戏角色时,只需通过自然语言描述调整需求,角色形象会在多次迭代中保持一致性,从初始草图到最终定稿,全程如同与专业画师协作。
3、复杂指令解析
当主流模型还在处理 5-8 个对象时,GPT-4o 已能精准呈现 20 个对象的交互场景,测试案例中,包含特定服饰要求的多人派对场景被完美呈现。
4、智能情境学习
上传设计稿后,模型不仅能识别风格要素,还能自动补完背景细节,某次演示中,简陋的线稿被转换成完成度极高的商业插画。
惊艳的实机表现
- 历史人物穿越到现代商场的创意画面,抓拍般的动态模糊和闪光灯效果栩栩如生
- 猫与老虎的倒影错觉,水面涟漪的物理模拟达到摄影级真实度
- 建筑概念图能自动补全符合工程规范的细节结构
该功能现已向 ChatGPT 所有用户开放,企业版与教育版也将陆续推送,此次升级模糊了对话与创作的界限,或许标志着人机协作进入新纪元。