北京青年报

AI能“生”万物吗？

半月谈 2024-08-28 10:42

Sora诞生半年后，它的“挑战者”纷至沓来，连“等不及”又“追不上”的英伟达也亲自下场。

迄今为止，Sora依旧只释放小样、未开放使用，而快手可灵、智谱清影、Vidu已率先打开体验大门，走向大众。

尽管“一键生成”的初体验称不上完美，却搅动了内容产业的一池春水。身边不少微短剧、广告、动画已经开始用上AI这个“效率搭子”。人工智能生成技术，从前不久的文生图，到如今的文生视频、图生视频、视频生成视频，“AIGC宇宙”不断扩张。

AI，是华夏神话里的“神笔马良”吗？它能让多少想象力、创造力活起来、动起来？

“文生视频”，如何“生”

“文生视频是一颗重磅炸弹。”半年来，从大厂到独角兽的Sora复现潮无一不在说明产业界对“生成”的重视。

视频生成，简言之是通过生成式人工智能技术，将文本、图片等多模态输入，转化为视频信号。

当前，视频生成的技术路线主要有两种。一种是扩散模型，其中又分为两类，一类是基于卷积神经网络的扩散模型，如Meta的EmuVideo、腾讯等推出的VideoCrafter；一类是基于Transformer架构的扩散模型，如OpenAI的Sora、快手的可灵AI、生数科技的Vidu等。另一种是自回归路线，如谷歌的VideoPoet、Phenaki等。

2024年7月26日，中国科技企业智谱AI面向全球用户发布其自主研发的人工智能生成视频模型清影（Ying）图为用户登录界面

目前，基于Transformer架构的扩散模型是视频生成模型的主流选择，也称“DiT”（Di为Diffusion缩写，T为Transformer缩写）。

文本“扩散”为视频？“扩散在此指一种建模方式。”北京大学信息工程学院助理教授、博士生导师袁粒举了一个生动例子——

米开朗琪罗在凿刻著名的大卫雕像时，说过这样一句话：雕塑本来就在石头里，我只是把不要的部分去掉。“这句话很形象地形容了‘扩散’这一建模过程。原始的纯噪声视频好比未经雕琢的石块。如何敲打这个大石块，敲除多余的部分，直到把它敲成轮廓清晰的‘大卫’，这样的方式就是‘扩散’。”袁粒说。

袁粒进一步解释：“Transformer就是一个神经网络，遵从‘规模规则’，执行敲石块的过程。它能处理输入的时空信息，通过理解其内部复杂关系来理解现实世界，使模型具备推理能力，既能捕捉视频帧之间的细微联系，也能确保视觉上的连贯、时间上的流畅。”

“效率搭子”，有多快

一只憨态可掬的北极熊被闹钟叫醒，背起行囊，乘坐直升机、转乘高铁、换乘出租车、登上轮船，跨越山河湖海、历尽艰难险阻，终于到达南极，与企鹅相会……

这部时长1分半、名为《一路向南》的动画短片，由视频生成模型Vidu完成。原本1个月的工作量，有了AI这个“效率搭子”的加入，仅用1周时间就制作出精良作品——效率是过去的4倍。

这让北京电影节AIGC短片单元最佳影片得主、Ainimate Lab AI负责人陈刘芳心生感慨：视频生成技术，让高水平动画不再是大厂才敢玩的“烧钱游戏”。

AI动画《一路向南》的创作团队仅由3人构成：一名导演、一名故事版艺术家、一名AIGC技术应用专家。而以传统流程制作的话，需要20人。算下来，仅制作成本就降低90%以上。

正如快手视觉生成和互动中心负责人万鹏飞所言，视频生成的本质是从目标分布中采样计算得到像素。这种方式能以更低的成本，达到更高的内容自由度。

进入Vidu的视频生成页面，笔者也体验了一把“一键生成”的自由。上传一张照片设置为“起始帧”或作为“参考的人物角色”，在对话框里输入想要生成的场景的文字描绘，点击“生成”，一条灵动精彩的短视频就自动生成了。从进入页面到下载完毕，不足1分钟。

将一张图片发给国产视频大模型Vidu，一段动画视频随即自动生成视频截图

“‘人人成为设计师’‘人人成为导演’的时代将会到来，就像当年‘人人拥有麦克风’一般。”智谱AI首席执行官张鹏说。

“世界模拟器”，有戏吗

视频生成，颠覆的仅仅是内容产业吗？这显然不是OpenAI的初衷。“生成视频”只是一道“开胃菜”。

Sora诞生之前，OpenAI并未将其定位为AIGC的实现工具，而是复刻物理世界的“容器”——世界模拟器。这一容器里，运行着真实世界的物理规律、环境行为、交互逻辑，恰似《黑客帝国》描绘的虚拟世界，冲击着我们的想象与感官。

然而，物理世界是三维的，目前的Sora等模型还只是基于二维运作，并非真实物理引擎，也就谈不到深层次的物理世界模拟。

“多年来，我一直表示，‘看到’世界即为‘理解’世界。但是现在我愿意将这个概念推进一步，‘看到’不仅仅是为了‘理解’，而是为了‘做到’。”斯坦福大学讲席教授李飞飞公开表示，空间智能的底线是将“看到”和“做到”联系在一起，有一天，AI将会做到这一点。

当“看到”还不等于“做到”时，人工智能的创造就不能停。最近，又有新的技术路线出现了。不同路线之间你追我赶，共同向前，推进这个由向量与模型构造的智能世界。

未来的“世界观”，依旧是一道尚未揭晓的谜题。正如美国物理学家费曼所说：“我不能创造一个我不理解的世界。”但这并不意味着，理解了一个世界，就一定能够创造出一个世界。

此刻，依旧是颠覆到来的前夜。这就是为什么当我们向技术探索者抛出关于未来的问题时，会得到截然不同的答案。也许“不确定”，正是这个时代的幸事。

编辑/范辉