人工智能技术不断演变之际,OpenAI带来了名为Sora的领先AI模型,它能够将文本描述转换成视频。这一创新性的举措旨在填补想象与视觉表现之间的空白,使创作者可以根据文本指令生成真实而富有创意的场景。
Sora的能力特点
Sora重新定义了内容创作的界限,具备了从文本生成视频的强大功能,显示了OpenAI推进AI技术极限的承诺。这个模型可以生产长达一分钟的视频,同时保持视觉质量,并严格遵循用户的脚本。
以下功能强调了Sora的能力:
1. 真实视频生成:通过一系列示例,从动画场景到戏剧性风景和创意情景,Sora可以创建符合具体和高度详细指令的视频。
2. 解读详细提示:Sora不仅理解用户所提出的需求,还能够理解这些需求在物理世界中的存在方式。
3. 多人物与复杂场景:Sora能够生成包含多个角色、特定类型的动作和精准的主题与背景细节的复杂场景。
4. 创意专业人士的验证:在向OpenAI的产品中加入Sora之前,这个模型已向红队成员(red teamers)以及视觉艺术家、设计师和电影制作者开放,以获得进一步发展模型的反馈。
研究技术
Sora是一种扩散模型,它初始生成看上去像静态噪声的视频,然后逐渐转换,通过多个步骤去除噪声。
这个模型能够一次性生成整个视频或延长已生成的视频。通过让模型一次预测多个帧,OpenAI解决了确保主题即使暂时离开视野也能保持一致性的难题。
Sora使用了与GPT模型类似的变压器架构(transformer architecture),这使得它在扩展性能方面表现出色。
它将视频和图像表示为称为“补丁”(patches)的数据的小单位集合,每个补丁类似于GPT中的一个“标记”(token)。通过统一数据表示方式,Sora可以在以前不可能的更广范围的视觉数据上进行训练,包括不同的持续时间、分辨率和长宽比。
Sora依托于DALL·E和GPT模型中的过往研究。它使用了DALL·E 3中的重新标注技术,即为视觉训练数据生成高度描述性的标注。因此,模型能够更忠实地遵循用户在生成视频中的文本指令。
此外,该模型不仅能够仅根据文本指令生成视频,还能够接收已有的静态图像并从中生成视频,准确地动画化图像内容,注意到细节。模型还可以对已有视频进行扩展或填充遗漏的帧。更多细节可以在技术报告中了解。
Sora为理解和模拟真实世界的模型奠定了基础,我们相信这将是实现通用人工智能(AGI)的一个重要里程碑。