OpenAI重磅发布首个视频生成模型Sora，网友：一出手就是王炸！

2024年2月17日上午10:01 • ChatGPT

刚刚，奥特曼发布 OpenAI 首个视频生成模型 Sora。

完美继承 DALL·E 3 的画质和遵循指令能力，能生成长达 1 分钟的高清视频。

AI 想象中的龙年春节，红旗招展人山人海。

有紧跟舞龙队伍抬头好奇观望的儿童，还有不少人掏出手机边跟边拍，海量人物角色各有各的行为。

雨后东京街头，潮湿地面反射霓虹灯光影效果堪比 RTX ON。

行驶中的列车窗外偶遇遮挡，车内人物倒影短暂出现非常惊艳。

也可以来一段好莱坞大片质感的电影预告片：

竖屏超近景视角下，这只蜥蜴细节拉满：

网友直呼 game over，工作要丢了：

甚至有人已经开始“悼念”一整个行业：

AI 理解运动中的物理世界

OpenAI 表示，正在教 AI 理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题

根据文本提示生成视频，仅仅是整个计划其中的一步。

目前 Sora 已经能生成具有多个角色、包含特定运动的复杂场景，不仅能理解用户在提示中提出的要求，还了解这些物体在物理世界中的存在方式。

Sora 还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

对于 Sora 当前存在的弱点，OpenAI 也不避讳，指出它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。

例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，狼的数量会变化，一些凭空出现或消失。

该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

如提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

技术方面，目前 OpenAI 透露的不多，简单介绍如下：

Sora 是一种扩散模型，从噪声开始，能够一次生成整个视频或扩展视频的长度，

关键之处在于一次生成多帧的预测，确保画面主体即使暂时离开视野也能保持不变。

与 GPT 模型类似，Sora 使用了 Transformer 架构，有很强的扩展性。

在数据方面，OpenAI 将视频和图像表示为 patch，类似于 GPT 中的 token。

通过这种统一的数据表示方式，可以在比以前更广泛的视觉数据上训练模型，涵盖不同的持续时间、分辨率和纵横比。

Sora 建立在过去对 DALL·E和 GPT 模型的研究之上。它使用 DALL·E 3 的重述提示词技术，为视觉训练数据生成高度描述性的标注，因此能够更忠实地遵循用户的文本指令。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地让图像内容动起来并关注小细节。

该模型还可以获取现有视频并对其进行扩展或填充缺失的帧，请参阅技术论文了解更多信息（晚些时候发布）。

Sora 是能够理解和模拟现实世界的模型的基础，OpenAI 相信这一功能将成为实现 AGI 的重要里程碑。

奥特曼在线接单

目前已有一些视觉艺术家、设计师和电影制作人（以及 OpenAI 员工）获得了 Sora 访问权限。

他们开始不断 po 出新的作品，奥特曼也开始了在线接单模式。

带上你的提示词@sama，就有可能收到生成好的视频回复。

本文转载自https://news.cnblogs.com/n/764709/，本文观点不代表Python技术站立场。

0 0 打赏

微信扫一扫

支付宝扫一扫

短短 45 分钟发布会，OpenAI 再次让 AI 圈一夜未眠！

上一篇 2023年11月8日上午8:55

ChatGPT有哪些应用场景？

下一篇 2023年4月19日

ChatGPT

短短 45 分钟发布会，OpenAI 再次让 AI 圈一夜未眠！

就在昨天 2023 年 11 月 6 日，OpenAI 举行了首个开发者大会 DevDay，即使作为目前大语言模型行业的领军者，OpenAI 卷起来可一点都不比同行差。 OpenAI 在大会上不仅公布了新的 GPT-4 Turbo 模型，还推出了几项从业务角度看可能冲击其他 AI 公司市场份额的服务，并对现有功能进行了升级和融合，基本上很多做着类似功能的第三…

2023年11月8日
003
ChatGPT的模型训练需要多少算力？

ChatGPT是基于GPT模型的聊天机器人模型，其模型训练需要一定的算力才能完成。主要的计算资源需要在模型训练时进行消耗，因此，下面我将详细介绍ChatGPT模型训练所需的算力和其完整攻略。算力需求 ChatGPT模型的算力需求主要依赖于以下几个因素：训练数据集的大小：数据集大小越大，所需的算力也越高。模型的参数数量：模型参数数量越多，所需的算力也越高…

ChatGPT 2023年4月19日
000
如何评估ChatGPT的性能？

评估ChatGPT的性能需要考虑以下指标：多轮对话的流畅性： ChatGPT是否能够像自然语言处理一样自然、流畅地与人类对话，并且在多轮对话中保持一定的连贯性。对话质量： ChatGPT能否理解用户的意图，并回答准确、合理的问题。处理速度： ChatGPT能否在合理的时间内为用户提供回答。下面是评估ChatGPT性能的完整攻略：数据准备准备一些聊…

ChatGPT 2023年4月19日
000
ChatGPT有多大的模型？

ChatGPT是一种基于GPT（Generative Pre-trained Transformer）模型的对话生成模型。关于ChatGPT的模型大小，我们需要分别考虑ChatGPT的中英文版本。中文ChatGPT模型中文ChatGPT的预训练模型使用了中文维基百科、百度百科、搜狗语料库等大规模中文数据进行训练。目前，中文ChatGPT的最新版本是Cha…

ChatGPT 2023年4月19日
000
ChatGPT的未来发展方向是什么？

ChatGPT的未来发展方向 ChatGPT是一个基于GPT模型的智能聊天机器人，可以处理各种类型的自然语言问答和对话。未来，ChatGPT的发展方向包括以下几个方面： 1. 提升模型性能模型性能是ChatGPT最核心的部分，模型越强大，聊天机器人的应用场景就越广泛。目前，GPT模型已经发展到了第三代，但是仍然存在许多技术问题，比如说生成长文本时的一致性问…

ChatGPT 2023年4月19日
001
ChatGPT是否支持迁移学习？

对于ChatGPT这类基于GPT的对话生成模型，支持迁移学习是非常重要的。下面我将为您介绍具体的攻略。首先，我们要明确使用的是基于GPT的对话生成模型，因此我们需要先准备好一个相关的预训练模型。目前，开源社区中已经有了很多基于GPT的预训练模型，如GPT-2、GPT-3等。在这里，笔者以GPT-2为例。接下来，我们需要做的是根据我们的需求，进行微调（Fi…

ChatGPT 2023年4月19日
001
ChatGPT有哪些应用场景？

ChatGPT是一种基于GPT模型的对话生成技术，可以用于多种领域的自然语言交互应用。下面详细介绍ChatGPT的应用场景及使用攻略。 ChatGPT的主要应用场景 1. 个性化客服 ChatGPT可以应用于在线客服，为用户提供个性化的服务。它可以自动处理用户的提问，并给出准确的答案。同时，它还可以根据用户的特征，提供个性化建议和推荐，提高用户满意度。 2.…

ChatGPT 2023年4月19日
000
NLP

2023年最火爆的5 个NLP模型，ChatGPT也在用！

自然语言处理 (NLP) 是人工智能最具影响力的领域之一，它已经催生了聊天机器人、语音助手、翻译器和大量其他日常实用工具等技术，最近火爆的 ChatGPT 就是基于自然语言处理相关算法搭建的！其实，自然语言处理的研究在 1950 年代就已经开始了。最早的尝试是从俄语到英语的自动翻译，并为未来的研究奠定了基础。大约在同一时间，图灵测试也验证了机器可以发展…

2023年2月11日
000

OpenAI重磅发布首个视频生成模型Sora，网友：一出手就是王炸！

相关文章