春节后的第一周,美国人工智能公司OpenAI依旧是全球瞩目的焦点。
此前在北京时间2月16日凌晨,OpenAI在官网宣布推出一个名为Sora的文本生成视频模型,极大地拓展了AI在视频内容生成方面能力。相比此前已有的视频生成模型,Sora在时长和分辨率上大幅超越,强大的文本理解和细节生成能力更是引发全球关注,被视为AI界的新里程碑。
“完了,我可能要失业了。”随着不断地翻看由Sora生成且未经修改的视频,在广告设计公司做视频剪辑的李俊心中涌起一股不安,在看到一段段视频精准还原了提示文字的每一个细节,他的职业危机感如潮水般涌来。
Sora的横空出世让不少传统行业的从业者感到颠覆与重塑正在上演,首当其冲的便是影视相关行业。“无人机视图,海浪撞击着大苏尔的加雷点海滩崎岖的悬崖.....这个景色捕捉了海岸的原始美景和太平洋海岸公路的崎岖景观。”与这段文字匹配的是一段Sora生成的高清视频,尽管只有8秒,但已经足够让李俊震撼不已。
Sora的“问世”适逢中国春节,顺势抓住了公众闲暇时光与社交场景,并通过互联网社交平台扩散、裂变,最终引发热烈谈论,360创始人周鸿祎更是下场判断,Sora意味着AGI的实现将从10年缩短到1年。与此同时,围绕Sora相关功能的知识付费课程层出不穷,相关概念股成为龙年“开门红”行情的领头羊,“掘金热潮”不减。
OpenAI上一次这样“出风头”是在2022年11月底,其开发的ChatGPT点燃AI热潮,掀起了整个2023年的人工智能淘金热。那么,此次Sora的横空出世,又将预示着什么?
跨越式突破
“Sora给人的震撼主要体现在其生成视频的精细画面已经很接近现实世界,有些甚至到了难以区分真假的程度。”2月下旬,短视频创作者夏廷对记者表示,Sora不仅提供了清晰、丰富的的视频内容,且其细节、光影和色彩等方面表现出色。
虽然在此之前视频生成已经是大模型领域最热门的研究方向之一,谷歌、Meta、Runway、百度、字节跳动等国内外公司都在积极布局,但截至目前,市场上尚未出现能够与Sora相抗衡的竞争对手。Sora走红后,视频生成赛道的领先者Runway公司CEO克里斯托瓦尔·巴伦苏埃拉在X平台上发布了一个简短的宣言:“Game On(比赛开始了)。”
根据OpenAI官方介绍,因使用Transformer架构,Sora具有极强的扩展性,同时在基于过去对DALL·E和GPT的研究基础构建上,还利用了DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,该模型不仅能理解用户提示词中的物品,更能理解这些物品在真实世界的存在形式。
2021年1月份,OpenAI发布了DALL·E模型,它能从文字说明中创建图像,用于表达各种可由自然语言表达的概念。一年后,OpenAI发布DALL·E 2,相比第一代以4倍的分辨率生成更真实和准确的图像。2023年9月,OpenAI再度刷新,DALL·E 3与整合了ChatGPT,语言理解能力大幅提升,可以将用户的想法转换为非常精确的图像。从文生图模型的快速迭代来看,Sora的突然爆发并未偶然。
不过,OpenAI也说明了Sora的局限性:它可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但饼干可能没有咬痕。同时,该模型还可能混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。
目前,Sora尚未开放公测,仅相关程序人员、安全测试人员以及OpenAI挑选的少量创作者和艺术家有体验权限。OpenAI称,在Sora产品上线前将会进行一系列的安全测试,包括进行误导性信息、仇恨内容等对抗测试,构建帮助识别误导性内容的工具,并制定安全规则等。
招商策略在研报中分析,“虽然OpenAI表示当前Sora仍有弱点,例如难以准确模拟复杂场景中的物理现象,可能无法理解具体的因果关系,但从当前展示的效果来看,Sora显著领先于其他文生视频模型,推动AI视频生成进入了一个全新的时代。”
颠覆与重构
和此前ChatGPT一样,Sora一夜爆火后,随之而来的便是其应用领域会颠覆哪些行业的讨论。
“Sora的出现将极大地改变视频制作的方式和效率,为导演们带来更多的创作可能性。”肖明是一家影视公司的编导,此前主要拍摄传记片,他对《国际金融报》记者表示,Sora能够将文本直接转换成高质量的视频,在某些场景下,拍摄条件可能受限或无法实现,就能通过Sora生成相应的视频片段来弥补这些不足。
不过肖明也强调,Sora暂时不会颠覆影视行业,因为视频是由模型生成的,而不是真实的演员和场景,可能缺乏真实性和情感共鸣,“毕竟影视行业的核心是剧本,剧本和创意还是得靠人。”
受访者提供
根据浙商证券分析,短期内,Sora及同类产品可大幅提升图像和短视频的制作效率,改变创意生产及营销工作流,提升短视频产品生产力。对于业态更加复杂的长视频和游戏,受限于模型目前还无法很好理解因果关系和其他技术难点,现阶段或以提供美术灵感支持为主。
“从中长期来看,Sora及同类产品将参与改变信息生产和分发两大环节的进程中,PGC(专业生产内容)将广泛采用AI工具辅助生产,UGC(用户生产内容)将借助AI工具逐步替代PGC(专业生产内容)。”浙商证券进一步称,“AI生成视频工具的商业化将提速,目前Sora还未公布收费标准,参照之前部分文生视频工具收费情况,定价相对较高。鉴于Sora采用的世界模拟器技术路径,边际成本或有降低的可能。”
不过就实际情况而言,当下AI视频的落地还面临多重不确定性和挑战。尤其是版权归属问题,AI生成的视频内容究竟归属于谁?这既涉及到原创性的界定,也牵涉到多方利益的平衡。
“在实践中,有关AIGC是否受著作权相关法律保护存在争议。”上海市海华永泰律师事务所合伙人陈元熹向记者指出,基于Sora与基于Stable Diffusion、DALL·E等其他软件生成内容的保护是类似的。在我国,《著作权法》第三条要求,作品应当是具有独创性的智力成果。在使用过程中,使用者通过输入提示词,由Sora基于Diffusion与Transformer架构,直接生成不带声音的视频内容。在这个过程中,除了提示词以外,使用者无法对Sora进行干预,这种视频生成方式与传统的视频拍摄、剪辑等制作方法完全不同。
“我们保守认为,这样的视频生成比较难以成为法律规定的作品。然而,北京互联网法院在2023年11月的判决认可了基于Stable Diffusion生成图片的著作权。”陈元熹进一步分析称,“所以,Sora生成视频涉及的著作权问题,还需要未来更多案件的具体分析与法律讨论。”
新一轮跟风?
Sora横空出世所激起的风浪仿佛“昨日重现”。
在过去的2023年,ChatGPT引领了全球大模型的浪潮,掀起了全球范围内的AI军备竞赛。国内科技行业则形成了“百模大战”,百度、阿里、腾讯、科大讯飞等科技大厂和众多创业公司跑步入场,通用大模型、垂直大模型等各类产品百花齐放;持续疲软的手机行业也在全面拥抱AI大模型,华为、小米、OPPO、vivo等厂商都在致力于将大模型装进手机里面。
伴随着Sora成为开年以来最亮眼的“王炸”,“降维打击”“新的GPT时刻”“人类愿赌服输”等赞誉纷至沓来,可以预见的是,国内企业的跟进风潮将再度开启。
从春节后的首个交易日开始,A股市场相关概念股就迎来涨停潮。记者注意到,与AI、算力、游戏、影视、广告营销等行业相关的多家上市公司在投资者互动平台上对Sora所引发的热潮进行了回应。例如,巨人网络表示,公司关注到Sora在视频生成领域取得的突破性进展,公司同样在积极布局多模态大模型领域,聚焦游戏垂直类创作场景;芒果超媒也表示,对以Sora为代表的新兴AI文生视频技术平台保持密切关注。
文生视频模型并不是刚出现的新鲜事物,在Sora问世之前,Meta和谷歌也曾推出过文生视频工具,创业公司中,Runway旗下视频生成模型Gen-2和去年爆火的Pika旗下Pika 1.0在这一赛道都有亮眼的表现。
但这些产品在Sora面前显得有些黯然失色,OpenAI自带的光环是原因之一,更重要的原因在于视频长度、连贯性、画质、多角度镜头等多个方面的突破,以及对人类语言和真实世界的理解。
在对外发声方面,相比上市公司,国内的互联网大厂们则显得有些低调。有人说,Sora问世之后,压力给到国内的科技巨头,尤其是字节跳动,原因在于Sora未来会对短视频行业带来巨大冲击,而作为全球短视频巨头,字节跳动旗下视频编辑工具剪映将面临威胁。
尽管在AI方面起步较晚,但从去年以来的一系列调整动作可以看出,字节跳动正在“火力全开”。就在Sora发布前一周,带领团队从0到1推出抖音的张楠宣布辞去抖音集团CEO一职,未来将把精力聚焦在剪映的发展上,张楠在朋友圈表示“跟着这个AI时代一起成长”,所透露的信号不言而喻。
值得关注的是,2月20日,有消息称,字节跳动推出了一款“中文版Sora”——Boximator,它可以通过文本精准控制生成视频中人物或物体的动作。对此,字节跳动相关人士表示,Boximator目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
这也意味着,字节跳动能否突围,依旧任重道远,而这或许也是国内众多科技公司都需要摸索和解答的问题。
编辑/范辉