Sora：OpenAI的文本生成视频AI模型

人工智能技术不断演变之际，OpenAI带来了名为Sora的领先AI模型，它能够将文本描述转换成视频。这一创新性的举措旨在填补想象与视觉表现之间的空白，使创作者可以根据文本指令生成真实而富有创意的场景。

Sora的能力特点
Sora重新定义了内容创作的界限，具备了从文本生成视频的强大功能，显示了OpenAI推进AI技术极限的承诺。这个模型可以生产长达一分钟的视频，同时保持视觉质量，并严格遵循用户的脚本。

以下功能强调了Sora的能力：

1. 真实视频生成：通过一系列示例，从动画场景到戏剧性风景和创意情景，Sora可以创建符合具体和高度详细指令的视频。

2. 解读详细提示：Sora不仅理解用户所提出的需求，还能够理解这些需求在物理世界中的存在方式。

3. 多人物与复杂场景：Sora能够生成包含多个角色、特定类型的动作和精准的主题与背景细节的复杂场景。

4. 创意专业人士的验证：在向OpenAI的产品中加入Sora之前，这个模型已向红队成员（red teamers）以及视觉艺术家、设计师和电影制作者开放，以获得进一步发展模型的反馈。

研究技术
Sora是一种扩散模型，它初始生成看上去像静态噪声的视频，然后逐渐转换，通过多个步骤去除噪声。

这个模型能够一次性生成整个视频或延长已生成的视频。通过让模型一次预测多个帧，OpenAI解决了确保主题即使暂时离开视野也能保持一致性的难题。

Sora使用了与GPT模型类似的变压器架构（transformer architecture），这使得它在扩展性能方面表现出色。

它将视频和图像表示为称为“补丁”（patches）的数据的小单位集合，每个补丁类似于GPT中的一个“标记”（token）。通过统一数据表示方式，Sora可以在以前不可能的更广范围的视觉数据上进行训练，包括不同的持续时间、分辨率和长宽比。

Sora依托于DALL·E和GPT模型中的过往研究。它使用了DALL·E 3中的重新标注技术，即为视觉训练数据生成高度描述性的标注。因此，模型能够更忠实地遵循用户在生成视频中的文本指令。

此外，该模型不仅能够仅根据文本指令生成视频，还能够接收已有的静态图像并从中生成视频，准确地动画化图像内容，注意到细节。模型还可以对已有视频进行扩展或填充遗漏的帧。更多细节可以在技术报告中了解。

Sora为理解和模拟真实世界的模型奠定了基础，我们相信这将是实现通用人工智能（AGI）的一个重要里程碑。

相关导航

只需要动手写，无需任何格式和设计，Gamma AI会为您自动生成漂亮生动的演示文稿、文档或网页等内容。

墨鱼AI是一款基于人工智能技...

Lumen5是一个基于AI人工智能技术的在线视频制作平台。

Zentask 是一个提供易于使用...

开源 UI 可视化工具，使用以 Node Typescript/Javascript 编写的 LangchainJS 构建自定义 LLM 流程

ChatGPT 在 Azure OpenAI 服务中提供预览版。借助 Azure OpenAI 服务，超过 1,000 家客户正在应用最先进的人工智能模型。

暂无评论...