在 2024 年 2 月 16 日,Open AI 宣布推出全新的生成式人工智能模型“Sora”。据了解,通过文本指令,Sora 可以直接输出长达 60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
这意味着,继文本、图像之后,OpenAI 将其先进的 AI 技术拓展到了视频领域。OpenAI 亦表示,Sora 是能够理解和模拟现实世界的模型的基础,这一能力将是实现 AGI(通用人工智能)的重要里程碑。
对于 OpenAI 视频生成模型的出现,业内其实早有预期,但仍有人评价称“比想象中来得更快”,亦有人振奋地表示“我们真的看到新工业革命来临”。
Sora 官方网址:https://openai.com/sora
认识SORA
Sora的应用领域十分广泛,它能够覆盖从教育教学、产品演示到内容营销等多个方面,为这些领域提供了实现高质量视频内容创作的强大工具。通过Sora,各类用户能够更加便捷地创造出既专业又引人入胜的视频内容。
下面是 OpenAI 官方发布的应用案例:
案例1
一位时尚的女性走在东京街头,周围是温暖闪亮的霓虹灯和活力四射的城市标识。她穿着一件黑色皮夹克,一条长长的红色连衣裙,搭配黑色靴子,并背着一个黑色手提包。她戴着墨镜,涂着红色口红。她步履自信,悠然自得地走着。街道潮湿而反光,呈现出丰富多彩的灯光的镜面效果。许多行人在街上走动。
视频链接: https://openai.com/sora?video=tokyo-walk
案例2
加利福尼亚淘金热时期的历史影像。
视频链接: https://openai.com/sora?video=gold-rush
当然还有非常多的例子,这里不一一列举,感兴趣的小伙伴执行查看官网的视频~ 总的来说 Sora 能够生成具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景,并具有以下特性:
理解用户在提示中所要求的内容,而且还理解这些事物在物理世界中的存在方式 对语言有着深刻的理解,使其能够准确地解释提示,并生成令人信服的字符 能够表达充满活力的情感,在一个生成的视频中创建多个镜头,以准确地保存字符和视觉风格
了解Sora的不足
Sora目前存在明显弱点,可能难以非常准确保证模拟复杂场景的物理过程,也可能无法理解因果关系的具体实例。比如:一个人可能咬了一口饼干,但之后饼干上可能没有咬痕。 该模型还可能混淆提示的空间细节,例如:混淆左右,并可能难以准确描述随着时间发生的事件,比如跟随特定的摄像头轨迹。
例子:
步进打印一个人奔跑的场景,电影胶片拍摄在35毫米。(制造出身体上令人难以置信的动作:人在跑步机上的跑步方向不寻常)
五只灰狼幼崽在一条偏远的砾石路上嬉戏,相互追逐,周围是草。幼崽们奔跑跳跃,互相追逐,相互咬咬,嬉戏。(制作了一段动物不断增加的视频:狼的数量会变化,一些凭空出现或消失)
如何体验Sora的能力
要使用Sora,您需要按照以下步骤操作:
登录OpenAI账户并找到Sora的使用界面。 在指定区域输入文本描述。 点击生成按钮,OpenAI Sora会根据文本描述生成相应视频。
在开始之前,请确保您已经注册了OpenAI账户,并且已经获得了访问Sora的权限。 导航至Sora的使用界面。在这里,您会找到一个专门的区域用于输入文本描述。您的输入可以是一个故事的概要、具体的场景描述,或者详细的动作指令。确保您的描述尽可能清晰和具体。
在完成文本描述和调整好所有自定义设置之后,点击“生成视频”按钮来启动过程。此时,Sora将开始处理您的请求,这个过程可能需要几分钟的时间。一旦完成,您就可以观看并预览Sora为您创造的视频了。
目前,OpenAI只向部分专业用户开放了Sora的访问权限。普通用户只能观看其发布的演示视频。
最后
从22年的ChatGPT、midjourney的模型生文生图,到今天的视频生成的只用了短短的一年时间,这一年以来关于人工智能的各种出圈都非常让人震惊,仿佛每隔几个月都开始科技圈 / 技术圈的一次盛宴,AIGC带来的能力逐渐从台后来到台前帮助人们更好的工作与生活,未来内容生成的应用将会更加的广泛。
本文链接:https://lipu365.com/gpt4_gpt5_63.html
chatgptplus开通教程chatgpt4chatgpt4.0如何使用chatgpt4本地部署chatgpt4.0官方下载chatgpt只允许会员登录了吗chatgpt官方正版需要注册会员吗ChatGPT Plus会员ChatGPT Plus订阅M2UGen