OpenAI重磅发布首个视频生成模型Sora，网友：一出手就是王炸！

2024年2月17日上午10:01 • ChatGPT

刚刚，奥特曼发布 OpenAI 首个视频生成模型 Sora。

完美继承 DALL·E 3 的画质和遵循指令能力，能生成长达 1 分钟的高清视频。

AI 想象中的龙年春节，红旗招展人山人海。

有紧跟舞龙队伍抬头好奇观望的儿童，还有不少人掏出手机边跟边拍，海量人物角色各有各的行为。

雨后东京街头，潮湿地面反射霓虹灯光影效果堪比 RTX ON。

行驶中的列车窗外偶遇遮挡，车内人物倒影短暂出现非常惊艳。

也可以来一段好莱坞大片质感的电影预告片：

竖屏超近景视角下，这只蜥蜴细节拉满：

网友直呼 game over，工作要丢了：

甚至有人已经开始“悼念”一整个行业：

AI 理解运动中的物理世界

OpenAI 表示，正在教 AI 理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题

根据文本提示生成视频，仅仅是整个计划其中的一步。

目前 Sora 已经能生成具有多个角色、包含特定运动的复杂场景，不仅能理解用户在提示中提出的要求，还了解这些物体在物理世界中的存在方式。

Sora 还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

对于 Sora 当前存在的弱点，OpenAI 也不避讳，指出它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。

例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，狼的数量会变化，一些凭空出现或消失。

该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

如提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

技术方面，目前 OpenAI 透露的不多，简单介绍如下：

Sora 是一种扩散模型，从噪声开始，能够一次生成整个视频或扩展视频的长度，

关键之处在于一次生成多帧的预测，确保画面主体即使暂时离开视野也能保持不变。

与 GPT 模型类似，Sora 使用了 Transformer 架构，有很强的扩展性。

在数据方面，OpenAI 将视频和图像表示为 patch，类似于 GPT 中的 token。

通过这种统一的数据表示方式，可以在比以前更广泛的视觉数据上训练模型，涵盖不同的持续时间、分辨率和纵横比。

Sora 建立在过去对 DALL·E和 GPT 模型的研究之上。它使用 DALL·E 3 的重述提示词技术，为视觉训练数据生成高度描述性的标注，因此能够更忠实地遵循用户的文本指令。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地让图像内容动起来并关注小细节。

该模型还可以获取现有视频并对其进行扩展或填充缺失的帧，请参阅技术论文了解更多信息（晚些时候发布）。

Sora 是能够理解和模拟现实世界的模型的基础，OpenAI 相信这一功能将成为实现 AGI 的重要里程碑。

奥特曼在线接单

目前已有一些视觉艺术家、设计师和电影制作人（以及 OpenAI 员工）获得了 Sora 访问权限。

他们开始不断 po 出新的作品，奥特曼也开始了在线接单模式。

带上你的提示词@sama，就有可能收到生成好的视频回复。

本文转载自https://news.cnblogs.com/n/764709/，本文观点不代表Python技术站立场。

0 0 打赏

微信扫一扫

支付宝扫一扫

短短 45 分钟发布会，OpenAI 再次让 AI 圈一夜未眠！

上一篇 2023年11月8日上午8:55

ChatGPT是如何工作的？

下一篇 2023年4月19日

ChatGPT是否支持迁移学习？

对于ChatGPT这类基于GPT的对话生成模型，支持迁移学习是非常重要的。下面我将为您介绍具体的攻略。首先，我们要明确使用的是基于GPT的对话生成模型，因此我们需要先准备好一个相关的预训练模型。目前，开源社区中已经有了很多基于GPT的预训练模型，如GPT-2、GPT-3等。在这里，笔者以GPT-2为例。接下来，我们需要做的是根据我们的需求，进行微调（Fi…

ChatGPT 2023年4月19日
001
ChatGPT有多大的模型？

ChatGPT是一种基于GPT（Generative Pre-trained Transformer）模型的对话生成模型。关于ChatGPT的模型大小，我们需要分别考虑ChatGPT的中英文版本。中文ChatGPT模型中文ChatGPT的预训练模型使用了中文维基百科、百度百科、搜狗语料库等大规模中文数据进行训练。目前，中文ChatGPT的最新版本是Cha…

ChatGPT 2023年4月19日
000
ChatGPT的模型训练需要多少算力？

ChatGPT是基于GPT模型的聊天机器人模型，其模型训练需要一定的算力才能完成。主要的计算资源需要在模型训练时进行消耗，因此，下面我将详细介绍ChatGPT模型训练所需的算力和其完整攻略。算力需求 ChatGPT模型的算力需求主要依赖于以下几个因素：训练数据集的大小：数据集大小越大，所需的算力也越高。模型的参数数量：模型参数数量越多，所需的算力也越高…

ChatGPT 2023年4月19日
000
ChatGPT与其他自然语言处理模型的区别是什么？

ChatGPT是一种基于Transformer模型的自然语言处理模型，下面将ChatGPT模型与其他常见的自然语言处理模型进行比较，包括RNN、CNN和BERT等。 RNN模型 RNN模型是一种递归神经网络，其能够处理序列数据，例如自然语言文本。RNN模型通过将前一时刻的隐状态作为当前时刻的输入，来捕捉文本中的时间相关性。但是RNN存在“梯度消失”和“梯度爆…

ChatGPT 2023年4月19日
001
ChatGPT的模型训练需要多少数据量？

ChatGPT是基于GPT模型的聊天机器人，需要大量的数据进行训练，以便生成有逻辑、有条理的对话。以下是基于Markdown格式的完整攻略： 1. 确定模型参数和模型结构在训练ChatGPT模型之前，需要了解模型的参数和结构，以便在后面的训练过程中进行设置。一般而言，模型的参数与结构决定了模型所需的数据量。对于ChatGPT中的模型，通常采用以下参数和结构…

ChatGPT 2023年4月19日
000
ChatGPT的训练数据是否有偏差？

关于ChatGPT的训练数据是否有偏差这个问题，我们需要从以下几个方面来进行分析：训练数据来源 ChatGPT的训练数据来源于社交媒体中的对话记录，包括Twitter、Reddit、新闻组等，这些数据来源以及对话场景本身会对训练数据的偏差产生影响，这一点需要认真考虑。例如，Twitter上的对话记录往往是短文本且带有情感色彩，而Reddit上的对话记录则…

ChatGPT 2023年4月19日
000
ChatGPT有哪些应用场景？

ChatGPT是一种基于GPT模型的对话生成技术，可以用于多种领域的自然语言交互应用。下面详细介绍ChatGPT的应用场景及使用攻略。 ChatGPT的主要应用场景 1. 个性化客服 ChatGPT可以应用于在线客服，为用户提供个性化的服务。它可以自动处理用户的提问，并给出准确的答案。同时，它还可以根据用户的特征，提供个性化建议和推荐，提高用户满意度。 2.…

ChatGPT 2023年4月19日
000
ChatGPT的训练数据来自哪里？

ChatGPT是一个基于GPT-2模型进行微调后用于生成对话的模型。其训练数据主要来自于三个主要的数据集： Reddit评论数据集：Reddit是一个全球知名的社交新闻网站，用户可以在其上发布、分享及讨论各种话题。该数据来源于Reddit上各种话题的评论，以及Reddit上的对话和不同主题的问答。Reddit评论数据集是ChatGPT训练数据的主要来源，它使…

ChatGPT 2023年4月19日
000

OpenAI重磅发布首个视频生成模型Sora，网友：一出手就是王炸！

相关文章

发表回复