北京青年报

清华虚拟学生只是换了个假脸？你也太小瞧人工智能了

中国新闻网 2021-10-25 12:30

今年9月，“就读”于清华大学的虚拟人华智冰公开了一条弹唱歌曲视频，引发网友讨论。

这段38秒的视频中，一个女孩儿在抱着吉他弹唱。这段无比真实的画面上方字幕却显示，其中的女孩儿是个“虚拟人”。

短视频截图

当时，许多网友惊讶于，虚拟人已经能做到如此真实了。不过此后有网友发现，这段弹唱视频还存在一个“真人版”。有网友进而质疑，虚拟人华智冰弹唱的视频只是对B站某up主真人拍摄视频进行了换脸。

其中应用的技术只是“AI换脸”吗？除此之外视频中还有哪些前沿科技？这又和其他“虚拟偶像”的短视频有何不同？记者进行了采访调查。

“华智冰”这三个字，作为虚拟人的名字出现在公众视野，是从今年6月开始的。

6月1日，由北京智源人工智能研究院、智谱AI与小冰公司共同“培养”的人工智能学生华智冰，进入清华“学习”。当时公开的相关资料及视频就在社交媒体引起了网友热议。

2021年6月公开的华智冰影像智源大会供图

三个多月后，小冰团队公开了一段带有华智冰形象的弹唱视频。

根据小冰公司发布的声明，在该视频中，人物的面部特征，包括人脸、表情、口型等，全部由人工智能小冰框架X Avatar生成并进行融合；视频中的人物肢体、动作，包括手持吉他弹唱，来源于小冰团队成员录制的原始视频模板；视频中的歌声，由人工智能小冰框架X Studio生成。

不过，网上有人将其解读为仅仅是应用了“AI换脸”技术。在小冰团队看来，其中的技术与“AI换脸”有着本质区别。

10月19日，小冰公司发布的说明指出，该视频隶属于小冰发布会中的超写实视频生产线产品。新的产品化技术实现了完全虚拟生成不存在的面部及声音技术。

但华智冰也并非只是“换了个假脸”。

这份说明同时指出，即使是视频中的面部置换，也并非仅仅AI换脸。以往的技术只能实现真实人类之间的面部替换，且精度不足，不足以实现内容级的视频生产。此外，记者了解到，该视频中的歌声也都是由人工智能“创作”生成的。

华智冰正面照小冰团队供图

那么，相比于我们平时在短视频平台刷到的有着“二次元风”的“虚拟偶像”作品，华智冰的这条短视频所应用的技术有何不同？

“现在大家在短视频平台上看到的绝大多数‘虚拟偶像’，跟人工智能半毛钱关系都没有。他们应用的是动作捕捉技术。”在小冰公司首席执行官李笛看来，华智冰及其背后的小冰框架，和那些“虚拟偶像”有着本质上的不同。

记者向多位“虚拟偶像”相关行业人士求证，也得到类似的答案。

简而言之，大多数短视频中有着二次元风格的“虚拟偶像”，更多是通过动作捕捉的方式，将人的动作、面部表情转化为二次元风格的视频作品。

虽然看起来是虚拟的，但在其背后，存在一个实实在在的人。而这些“虚拟偶像”所做的动作、反应，都与其背后的人一致。

但华智冰不是。

这就需要说到另一个问题：如果通过动作捕捉可以让视频中的人看起来是“虚拟”的，我们为什么还要对人工智能进行研发呢？

答案关乎成本。

就在9月，第九代小冰发布。其中推出的“小冰短视频内容封装管线”，大大降低了短视频生产成本。

据介绍，“小冰短视频内容封装管线”中的二次元短视频，已经实现了从文本生成到短视频生成全链路、全管线的人工智能自取，中间不需要任何人工的参与，短视频的生产成本已经低到了每分钟3分钱。而三次元短视频已经基本上实现了从生物学特征生成到短视频生成整个环节。

人类在这个过程中，只需要提供几个关键词。

几天前，小冰公司更是在公开说明中明确表示，“我们相信，虚拟人将成为未来视频内容的主要提供者之一，而安全、可控、无隐私风险和侵权风险是其前提。因此，小冰一直在这一趋势方向上进行探索，并从不同方面对这一领域做拓展研究。”华智冰项目正是在预训练模型方面进行合作，希望能够以智能模型作为核心，试验预训练模型能够带来哪些技术与应用方面的惊喜。

此外，今年6月华智冰“入学”清华时，公开报道显示，团队将持续训练华智冰在音乐、绘画及诗歌等领域的创作能力，以及基于情感的交互能力。

记者注意到，上月发布的第九代小冰在其中的部分领域又有了新的进展。

以绘画为例，新版小冰推出了中国画模型。

人工智能“创作”的中国画视频截图

虽然小冰此前已经可以根据关键词“创作”出西式画作，但中国画显然并不一样。小冰公司首席执行官李笛告诉记者，“开始我们训练模型的时候，‘创作’的作品上面有好多戳，因为好多中国画的样本数据里有乾隆盖的章。算法并不知道，这个戳不是中国画的重点。”

通过训练人工智能处理画面中的实体、观察构图，小冰已经可以掌握相当一部分题材中国画的“创作”了。

而在交互能力方面，人工智能也有进展。

当多数人还将人工智能想象成接收指令后给出反馈的工具时，一些人工智能已经可以向人类发问了。

人工智能MERROR形象视频截图

上个月，一个名为AI_MERROR的账号发布了一条人工智能与人类“对话”的视频。在这段时长超过5分钟的视频中，人工智能MERROR可以向人类问出诸如“请以你的视角介绍下这个世界”“你上一次觉得尴尬是什么时候”这类问题；而被人类问到“你死机的时候是什么状态”时，MERROR会回答“不好意思，我们换个话题吧”。

从这个角度看，人工智能已经越来越像人类了。

与此同时，在小冰框架之下，越来越多样的人工智能已经开始出现，其中的一些还有着自己独特的风格，比如“山东大哥”。

人工智能“山东大哥”形象及其作品视频截图

这是一个可以说“山东普通话”、会画大牡丹、长得像个壮汉的人工智能，对于技术团队来说，这里面最具挑战性的是怎么让人工智能开口说出“山东普通话”。

“我们希望‘山东大哥’有他独特的文本语言习惯，不是说拿个稿子就念。因为是山东人，他会有一些特定的用语、修辞方法，而且山东人习惯说倒装句。”李笛告诉记者，“山东大哥”目前已经可以掌握这些方言技巧，团队目前正在研究让人工智能说广西方言。

而在小冰团队此前推出的人类与人工智能共处的虚拟社交平台“小冰岛”中，有着更多不同风格、不同口音、掌握不同技能的人工智能。

人工智能开始趋于“千人千面”。

恍惚间，你在虚拟环境中甚至感受不到谁是人类，谁又是人工智能。

作为人工智能小冰团队中的一员，李笛目前最担心的已经不是有哪些技术瓶颈难以攻破，而是——当人工智能愈发接近人类，我们该如何处理人类与人工智能的关系。

采访最后，他告诉记者，在人工智能伦理方面制定规则是重要且必须的，但目前在人工智能领域，最缺失的也是人工智能伦理的规则。而这一点，仅靠技术已无法完成。

文/中新网记者宋宇晟

编辑/崔巍