北京青年报

Sora将颠覆谁？

国际金融报 2024-02-24 09:33

春节后的第一周，美国人工智能公司OpenAI依旧是全球瞩目的焦点。

此前在北京时间2月16日凌晨，OpenAI在官网宣布推出一个名为Sora的文本生成视频模型，极大地拓展了AI在视频内容生成方面能力。相比此前已有的视频生成模型，Sora在时长和分辨率上大幅超越，强大的文本理解和细节生成能力更是引发全球关注，被视为AI界的新里程碑。

“完了，我可能要失业了。”随着不断地翻看由Sora生成且未经修改的视频，在广告设计公司做视频剪辑的李俊心中涌起一股不安，在看到一段段视频精准还原了提示文字的每一个细节，他的职业危机感如潮水般涌来。

Sora的横空出世让不少传统行业的从业者感到颠覆与重塑正在上演，首当其冲的便是影视相关行业。“无人机视图，海浪撞击着大苏尔的加雷点海滩崎岖的悬崖.....这个景色捕捉了海岸的原始美景和太平洋海岸公路的崎岖景观。”与这段文字匹配的是一段Sora生成的高清视频，尽管只有8秒，但已经足够让李俊震撼不已。

Sora的“问世”适逢中国春节，顺势抓住了公众闲暇时光与社交场景，并通过互联网社交平台扩散、裂变，最终引发热烈谈论，360创始人周鸿祎更是下场判断，Sora意味着AGI的实现将从10年缩短到1年。与此同时，围绕Sora相关功能的知识付费课程层出不穷，相关概念股成为龙年“开门红”行情的领头羊，“掘金热潮”不减。

OpenAI上一次这样“出风头”是在2022年11月底，其开发的ChatGPT点燃AI热潮，掀起了整个2023年的人工智能淘金热。那么，此次Sora的横空出世，又将预示着什么？

跨越式突破

“Sora给人的震撼主要体现在其生成视频的精细画面已经很接近现实世界，有些甚至到了难以区分真假的程度。”2月下旬，短视频创作者夏廷对记者表示，Sora不仅提供了清晰、丰富的的视频内容，且其细节、光影和色彩等方面表现出色。

虽然在此之前视频生成已经是大模型领域最热门的研究方向之一，谷歌、Meta、Runway、百度、字节跳动等国内外公司都在积极布局，但截至目前，市场上尚未出现能够与Sora相抗衡的竞争对手。Sora走红后，视频生成赛道的领先者Runway公司CEO克里斯托瓦尔·巴伦苏埃拉在X平台上发布了一个简短的宣言：“Game On（比赛开始了）。”

根据OpenAI官方介绍，因使用Transformer架构，Sora具有极强的扩展性，同时在基于过去对DALL·E和GPT的研究基础构建上，还利用了DALL·E 3的重述提示词技术，为视觉模型训练数据生成高描述性的标注，该模型不仅能理解用户提示词中的物品，更能理解这些物品在真实世界的存在形式。

2021年1月份，OpenAI发布了DALL·E模型，它能从文字说明中创建图像，用于表达各种可由自然语言表达的概念。一年后，OpenAI发布DALL·E 2，相比第一代以4倍的分辨率生成更真实和准确的图像。2023年9月，OpenAI再度刷新，DALL·E 3与整合了ChatGPT，语言理解能力大幅提升，可以将用户的想法转换为非常精确的图像。从文生图模型的快速迭代来看，Sora的突然爆发并未偶然。

不过，OpenAI也说明了Sora的局限性：它可能难以准确模拟复杂场景的物理特性，并且可能无法理解因果关系的具体实例。例如，一个人可能会咬一口饼干，但饼干可能没有咬痕。同时，该模型还可能混淆提示的空间细节，例如，左右混淆，并且可能难以精确描述随时间推移发生的事件，例如遵循特定的相机轨迹。

目前，Sora尚未开放公测，仅相关程序人员、安全测试人员以及OpenAI挑选的少量创作者和艺术家有体验权限。OpenAI称，在Sora产品上线前将会进行一系列的安全测试，包括进行误导性信息、仇恨内容等对抗测试，构建帮助识别误导性内容的工具，并制定安全规则等。

招商策略在研报中分析，“虽然OpenAI表示当前Sora仍有弱点，例如难以准确模拟复杂场景中的物理现象，可能无法理解具体的因果关系，但从当前展示的效果来看，Sora显著领先于其他文生视频模型，推动AI视频生成进入了一个全新的时代。”

颠覆与重构

和此前ChatGPT一样，Sora一夜爆火后，随之而来的便是其应用领域会颠覆哪些行业的讨论。

“Sora的出现将极大地改变视频制作的方式和效率，为导演们带来更多的创作可能性。”肖明是一家影视公司的编导，此前主要拍摄传记片，他对《国际金融报》记者表示，Sora能够将文本直接转换成高质量的视频，在某些场景下，拍摄条件可能受限或无法实现，就能通过Sora生成相应的视频片段来弥补这些不足。

不过肖明也强调，Sora暂时不会颠覆影视行业，因为视频是由模型生成的，而不是真实的演员和场景，可能缺乏真实性和情感共鸣，“毕竟影视行业的核心是剧本，剧本和创意还是得靠人。”

受访者提供

根据浙商证券分析，短期内，Sora及同类产品可大幅提升图像和短视频的制作效率，改变创意生产及营销工作流，提升短视频产品生产力。对于业态更加复杂的长视频和游戏，受限于模型目前还无法很好理解因果关系和其他技术难点，现阶段或以提供美术灵感支持为主。

“从中长期来看，Sora及同类产品将参与改变信息生产和分发两大环节的进程中，PGC（专业生产内容）将广泛采用AI工具辅助生产，UGC（用户生产内容）将借助AI工具逐步替代PGC（专业生产内容）。”浙商证券进一步称，“AI生成视频工具的商业化将提速，目前Sora还未公布收费标准，参照之前部分文生视频工具收费情况，定价相对较高。鉴于Sora采用的世界模拟器技术路径，边际成本或有降低的可能。”

不过就实际情况而言，当下AI视频的落地还面临多重不确定性和挑战。尤其是版权归属问题，AI生成的视频内容究竟归属于谁？这既涉及到原创性的界定，也牵涉到多方利益的平衡。

“在实践中，有关AIGC是否受著作权相关法律保护存在争议。”上海市海华永泰律师事务所合伙人陈元熹向记者指出，基于Sora与基于Stable Diffusion、DALL·E等其他软件生成内容的保护是类似的。在我国，《著作权法》第三条要求，作品应当是具有独创性的智力成果。在使用过程中，使用者通过输入提示词，由Sora基于Diffusion与Transformer架构，直接生成不带声音的视频内容。在这个过程中，除了提示词以外，使用者无法对Sora进行干预，这种视频生成方式与传统的视频拍摄、剪辑等制作方法完全不同。

“我们保守认为，这样的视频生成比较难以成为法律规定的作品。然而，北京互联网法院在2023年11月的判决认可了基于Stable Diffusion生成图片的著作权。”陈元熹进一步分析称，“所以，Sora生成视频涉及的著作权问题，还需要未来更多案件的具体分析与法律讨论。”

新一轮跟风？

Sora横空出世所激起的风浪仿佛“昨日重现”。

在过去的2023年，ChatGPT引领了全球大模型的浪潮，掀起了全球范围内的AI军备竞赛。国内科技行业则形成了“百模大战”，百度、阿里、腾讯、科大讯飞等科技大厂和众多创业公司跑步入场，通用大模型、垂直大模型等各类产品百花齐放；持续疲软的手机行业也在全面拥抱AI大模型，华为、小米、OPPO、vivo等厂商都在致力于将大模型装进手机里面。

伴随着Sora成为开年以来最亮眼的“王炸”，“降维打击”“新的GPT时刻”“人类愿赌服输”等赞誉纷至沓来，可以预见的是，国内企业的跟进风潮将再度开启。

从春节后的首个交易日开始，A股市场相关概念股就迎来涨停潮。记者注意到，与AI、算力、游戏、影视、广告营销等行业相关的多家上市公司在投资者互动平台上对Sora所引发的热潮进行了回应。例如，巨人网络表示，公司关注到Sora在视频生成领域取得的突破性进展，公司同样在积极布局多模态大模型领域，聚焦游戏垂直类创作场景；芒果超媒也表示，对以Sora为代表的新兴AI文生视频技术平台保持密切关注。

文生视频模型并不是刚出现的新鲜事物，在Sora问世之前，Meta和谷歌也曾推出过文生视频工具，创业公司中，Runway旗下视频生成模型Gen-2和去年爆火的Pika旗下Pika 1.0在这一赛道都有亮眼的表现。

但这些产品在Sora面前显得有些黯然失色，OpenAI自带的光环是原因之一，更重要的原因在于视频长度、连贯性、画质、多角度镜头等多个方面的突破，以及对人类语言和真实世界的理解。

在对外发声方面，相比上市公司，国内的互联网大厂们则显得有些低调。有人说，Sora问世之后，压力给到国内的科技巨头，尤其是字节跳动，原因在于Sora未来会对短视频行业带来巨大冲击，而作为全球短视频巨头，字节跳动旗下视频编辑工具剪映将面临威胁。

尽管在AI方面起步较晚，但从去年以来的一系列调整动作可以看出，字节跳动正在“火力全开”。就在Sora发布前一周，带领团队从0到1推出抖音的张楠宣布辞去抖音集团CEO一职，未来将把精力聚焦在剪映的发展上，张楠在朋友圈表示“跟着这个AI时代一起成长”，所透露的信号不言而喻。

值得关注的是，2月20日，有消息称，字节跳动推出了一款“中文版Sora”——Boximator，它可以通过文本精准控制生成视频中人物或物体的动作。对此，字节跳动相关人士表示，Boximator目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

这也意味着，字节跳动能否突围，依旧任重道远，而这或许也是国内众多科技公司都需要摸索和解答的问题。

编辑/范辉