北京青年报

Vidu全球首发“主体参照”功能视频生成进入新阶段

北京青年报客户端 2024-09-14 13:01

近日，由生数科技和清华大学联合研发的国内首个纯自研原创视频大模型 Vidu全球首发“主体参照”功能，该功能能够实现对任意主体的一致性生成，让视频生成更加稳定、可控。目前该功能面向全部注册用户免费开放。

Vidu支持图生和文生视频两种能力，于7月底正式上线。所谓“主体参照”，就是允许用户上传任意主体的一张图片，Vidu 就能够锁定该主体的形象，通过描述词任意切换场景，输出主体一致的视频。

该功能不局限于单一对象，而是面向“任意主体”，无论是人物、动物、商品，还是动漫角色、虚构主体，都能确保其在视频生成中的一致性和可控性，这是视频生成领域的一大创新。Vidu 也是全球首个支持该能力的视频大模型。比如进行人物角色的“主体参照”，无论是真实人物还是虚构角色，Vidu 都能保持其在不同环境中、不同镜头下的形象连贯一致。

例如，输入一张林黛玉的角色照，输入同样的“在现代咖啡厅喝咖啡”的描述，能直观看到，在Vidu “主体参照”功能下，林黛玉的形象在现代场景中得到了完美保留，场景输出也自然而真实。

据了解，此前的视频模型往往难以实现这一点，常常是主体在生成过程中容易崩坏。为了解决这一问题，业界曾尝试采用“先AI生图、再图生视频”的方法，通过AI绘图工具如 Midjourney 生成分镜头画面，先在图片层面保持主体一致，然后再将这些画面转化为视频片段并进行剪辑合成。不过，AI 绘图的一致性并不完美，更重要的是，实际的视频制作过程中涉及众多场景和镜头，导致生图的工作量巨大。而Vidu 的“主体参照”功能彻底改变了这一局面。它摒弃了传统的分镜头画面生成步骤，通过“上传主体图+输入场景描述词”的方式，直接生成视频素材。

Ainimate Lab AI 负责人陈刘芳表示，Vidu与北京电影节 AIGC 短片单元最佳影片得主、Ainimate Lab 合作打造的动画短片《一路向南》，创作团队仅由三人构成：一名导演、一名故事版艺术家和一名 AIGC 技术应用专家，制作周期约为 1 周，而传统流程需要 20 人，包含导演、美术、建模、灯光、渲染等不同“工种”，周期在一个月左右。画面质量接近传统动画制作标准，但成本仅为传统流程的 1/40。

文/北京青年报记者温婧
编辑/田野