近来大热的电视剧《狂飙》突然掀起了一阵“破案”浪潮,很多观众化身名侦探,想要破解一个秘密。只不过,这个秘密并不是剧里的案情,而是关于这部剧本身。
原来,《狂飙》后半部分的剧情出现了不少大转弯,和之前铺垫的剧情逻辑并不一致。观众怀疑,这些剧情是电视剧已经拍摄完成后,又经过了二次剪辑、配音,将原剧情进行了更改。
观众还给这个疑问提出了证据:很多剧中人的口型和台词对不上。观众盯着演员的嘴巴反复看,甚至解读出了“原始台词”。
如今,许多影视作品会采取后期配音的制作方式,台词和口型对不上时有发生。那么,看口型猜出的台词,靠不靠谱呢?
动嘴巴包含的信息
咱们先来做一个小游戏。请看下面这张图:
唇读小谜题,图片来源:Wikipedia
这是一道有趣的图片谜题,图上这十二个人在说自己名字拍下了“照片”。我们知道,他们的名字分别叫做欧姆(Oom)、艾尔登(Alden)、伊斯特曼(Eastman)、阿尔弗莱德(Alfred)、阿瑟(Arthur)、卢克(Luke)、弗莱切(Fletcher)、马修(Matthew)、西奥多(Theodore)、理查德(Richard)、舍莫(Shirmer)和西斯沃特(Hisswald)。你能分辨出谁是谁吗?
请你放大图片,把他们的名字念上一遍,对一对他们的口型与自己的口型。你会发现,即便不借助英文发音,中国人也能猜出个大概。这正是因为咱们说话的时候,口型体现了正在发出的声音。仅仅看口型,确实可以猜出一些发音。
科学家发现,说话的信息虽然主要靠语音,但是口型也非常重要。婴儿在学说话的时候,会特别关注家长的口型。如果给婴儿放一段视频,故意把语音和口型配错,婴儿立刻就能发觉,显得非常困惑。在语言学习早期,模仿口型可以帮助学习者模仿发音。
人们很早就发现了口型和语音对应的规律,并且用口型来辅助理解语言。在古代,聋人就依靠看口型来理解听人说话,这种方法叫做“唇读”。直到今天,许多聋人学校还会教唇读。后天听力下降的人一般不会学习手语,一些培训机构也会帮助这些人学习唇读,用唇读辅助听语音,可以帮助他们更好的沟通。许多聋人长期利用唇读,唇读技巧更为高超,可以看着一个人的面部动作,猜出他说的话。
这么说来,观众看着口型就能猜出原本的台词啦?可能要让你失望了,哪怕是经过训练的唇读专家,想要完全复原台词也不靠谱。这又是为什么呢?
唇读的局限
2006 年世界杯决赛中,有一次著名的犯规:法国著名球星齐达内在比赛中突然用头撞向意大利队员马特拉齐的胸口。对方应声摔倒,齐达内也因为这个犯规动作遭红牌罚下。
那场比赛本来是齐达内代表法国国家队打入的世界杯决赛,又是他退役前的最后一场比赛,用这种方式退场,让球迷十分错愕。
结合齐达内愤怒退场的录像和时候表现,人们才意识到,这次犯规事出有因。马特拉齐对着齐达内小声说了什么,才让他失控。赛后两位当事人却各执一词。齐达内说,马特拉齐出言侮辱他的姐姐和母亲;马特拉齐承认出言不逊,却否认侮辱对方家人。
媒体自然不会放过这个八卦,他们找来唇读专家,对着当时的录像分析马特拉齐究竟说了什么。结果,大家解读出的结果却并不一致。第二年,马特拉齐在一次采访中透露了自己说的话,也和唇读专家解读的也不相同。当然,运动员有可能事后粉饰自己的言辞,但这个例子至少说明,人们并不能靠唇读并不能严丝合缝的猜出原来的句子。
语言学家发现,英语大概有 40 多个可以分辨的发音,但是,多个不同的发音却共享相近的口型。汉语的情况也一样,你也可以对着镜子试一下,汉语拼音b和p,k和g,还有z、c和s等等口型就非常近似。这是因为,人们在说话的时候,喉咙、舌头和嘴唇都要做出相应动作。而人们往往只能观察到嘴唇和一点点舌头,喉咙的动作用眼睛完全看不到。
聋人在唇读的时候,如果知道对话话题,又和说话人很熟悉,不仅可以通过唇读获取信息,还能依据上下文和对方的说话习惯提升准确度。但是,如果只是远远看一眼别人嘴唇运动,没有上下文的支持,唇读的准确性就会降低许多。
静音之后,口型似乎更好认了?
看来,看视频的时候发现口型对不上很容易,但是单靠口型猜出原来的台词却没那么容易。不过,还有一个有趣的现象值得一说,有些网友在破译剧情的时候发现了一个现象:直接看视频,语音会干扰口型的判断,但是如果把视频关了,猜测原来的台词就容易一点。
没错,语音和口型的信息是会相互影响的。有时候,只要听到语音,哪怕口型对不上,也不至于过分出戏。近年来,一些演员在影视剧拍摄时甚至没有完整念出过台词,而是完全靠后期配音,但依然可以制作出不过分违和的作品。而且,人们在看译制片时也有感觉,最精妙的配音似乎是演员自然说出来的,完全没有“配”的感觉。这正是语音影响了对口型的认知。
反过来,口型还能影响对语音的认知。科学家做过一个实验,先录制了一个人发出“ba”这个字音的视频。看口型、听声音大家都觉得一切正常。随后,演员的口型变成了“fa”,但声音依然是“ba”。此时,人们听到的声音一点没变,但看着视频,居然就听出一点“fa”的声音来。这个现象,叫做“麦格克现象”(McGurk effect)。它说明,人类在和人对话的时候,会自动把语音的信息和唇读信息整合在一起。口型变了,居然也能影响到语音。
人工智能,怎么又是你?
看来,唇读包含的信息有局限,人类理解语音和口型有极限,想靠口型猜测剧情这条路是走不通了。不过,也许未来人们有办法进一步提升唇读的能力,这就要靠人工智能来帮忙了。来自 Google 的科学家找来大量视频训练电脑,提升唇读的准确性。这项研究的进展远远比不上语音识别,但是电脑也有一定的准确性了。
图片来源:参考文献[9]
还有,一家叫做 Jali 的人工智能公司开发了一项新技术,只要输入语音和文字,就能让 3D 人物自动对上口型。一些 3D 游戏能够提供十几种语言的配音,其中的人物表情和口型都能对应到特定语言上。如果靠动画师手工调整,这是一项不可能的任务,但是有了人工智能,就能做出精美的演出效果。
也许,未来的影视剧会考虑用虚拟演员替代真人。毕竟,虚拟演员的口型和台词永远对得上,唇读名侦探出马的机会都没有了。
最后,关于开头的那个唇读小谜题,你有解开吗?快留言告诉我们你的答案吧!
参考文献:
[1] Sam Loyd's Cyclopedia of Puzzles, 1914
[2] Dodd B(1976). Lip reading in infants: attention to speech presented in- and out-of-synchrony. Cognitive Psychology Oct;11(4):478-84
[3] 徐诚。 (2013). 唇读研究回顾:从聋人到正常人。 华东师范大学学报(教育科学版), 31(1): 56-61.
[4] 雷江华, 张凤琴, 方俊明。 (2004). 字词条件下聋生唇读汉字语音识别的实验研究。 中国特殊教育, 53(11), 37-39.
[5] 红牌终结一代球王 齐达内顶人事件盖棺定论。 中国新闻网, 2007.3.6
[6] Auer, ET (2010). "Investigating speechreading and deafness". Journal of the American Academy of Audiology. 21 (3): 163–8.
[7] McGurk H, MacDonald J. (1976). "Hearing lips and seeing voices". Nature. 264 (5588): 746–748.
[8] 罗霄骁, 康冠兰, 周晓林。 (2018). McGurk效应的影响因素与神经基础。 心理科学进展, 2018, 26(11): 1935-1951
[9] Chung, J. S, Senior, A, Vinyals, O, & Zisserman, A. (2017). Lip Reading Sentences in the Wild. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 3444–3453.
[10] Cyberpunk 2077's dialogue was lip-synced by AI. Engadget, 2020.10.20
作者:陈朝 北京师范大学认知神经科学硕士
审核:陶宁 中科院生物物理所 副研究员
文并图来源:科普中国
编辑/韩世容