北京青年报

加入文生视频战局！OpenAI将Sora视作“世界模拟器”

第一财经 2024-02-16 17:03

北京时间2月16日，OpenAI CEO 山姆·奥尔特曼（Sam Altman）在公布刷屏业界的文生视频产品Sora后，在社交平台X上发文称：“OpenAI所有关键资源均已到位，专注于打造AGI（通用人工智能），你或许应该考虑加入我们。”

今日OpenAI在Runway、Pika、谷歌、 Meta之后，正式加入AI 视频生成领域的竞争，推出AI视频生成产品Sora。OpenAI官方介绍称：如果给定一段简短或详细的描述或一张静态图片，Sora 就能生成类似电影的 1080P场景，包含多个角色、不同类型的动作和背景细节。1080P是一种视频显示格式，是目前美国电影电视工程师协会（SMPTE）制定的最高等级高清数字电视的格式标准。

OpenAI官方表示：“Sora是能够理解和模拟现实世界的模型的基础，相信这一功能将成为实现AGI的重要里程碑。”

OpenAI演示视频截图

今日，OpenAI发布了基于Sora生成的60秒视频效果，提示词为：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上，她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

需注意的是，该60秒视频并非一镜到底，而是在第37秒切换特写镜头。

另外，截至发稿，奥尔特曼连发9条根据网友提示词生成的视频，包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。

技术层面，Sora采用扩散模型（diffusion probabilistic models）技术，基于Transformer 架构，但为了解决Transformer 架构核心组件注意力机制的长文本、高分辨率图像处理等问题，扩散模型用可扩展性更强的状态空间模型（SSM）主干替代了传统架构中的注意力机制，可以使用更少的算力，生成高分辨率图像。此前Midjourney与Stable Diffusion 的图像与视频生成器同样基于扩散模型。

同时，Sora也存在一定的技术不成熟之处。OpenAI表示，Sora可能难以准确模拟复杂场景的物理原理，可能无法理解因果关系，可能混淆提示的空间细节，可能难以精确描述随着时间推移发生的事件，如遵循特定的相机轨迹等。

中科深智创始人兼CEO成维忠对第一财经记者表示，Sora目前还存在因果关系推理问题，但这个问题不是Sora自身的问题，而是目前所有类似模型均存在的问题——文生视频过程中，模型搞不清楚人与环境的关系，搞不清楚前后逻辑关系等情况，该问题会导致模型在实际应用的时候，达不到使用者设想的完美程度，但从个人工具的角度来说，Sora已经比此前行业内推出的文生视频好很多了。未来随着训练的加强，该问题也会逐步得到解决。

对于文生视频工具Sora的技术实力，英伟达科学家DrJimFan评价称，Sora 是一个数据驱动的物理引擎。它是对许多世界的模拟，无论是真实的还是幻想的。模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。“如果 Sora 使用虚幻引擎 5 对大量合成数据进行训练，我不会感到惊讶，它也必须如此。”DrJimFan表示。

一位人工智能领域人士评价称，视频生成居然引入了物理引擎模拟，这样来看再升维进入3D生成应该就指日可待了。趣丸集团副总裁庄明浩认为Sora的面世影响的不仅是文生视频领域，下一步将是过去一年各家游戏物理引擎厂商们一直在尝试的自然语言改造生产流程，以及3D素材生产这个战场。

OpenAI方面在技术报告中表示，并未将Sora单纯视作视频模型，而是将视频生成模型作为“世界模拟器”，不仅可以在不同设备的原生宽高比直接创建内容，而且展示了一些有趣的模拟能力，如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频，OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

编辑/樊宏伟