在大模型时代,人工智能合成语音与真实语音之间的界限变得越发模糊,提升与之匹配的识别技术迫在眉睫。7月23日,主题为语音深度鉴伪识别的第九届信也科技杯全球人工智能算法大赛总决赛在上海举行,大赛鼓励参赛者运用深度学习和人工智能对抗技术,开发出能够准确识别虚假语音的模型。
深度伪造是一种利用深度学习和人工智能技术生成高度逼真的虚假内容的方法。大模型的兴起为深度伪造带来了土壤,只需输入提示词,AI系统就会输出图片、视频、音频,真假难辨。
以虚假语音为例,大模型能够生成多种虚假语音,这些虚假语音更真实、拟人,对话流畅,为虚假语音识别带来更大的挑战。“在一些高价值场景里,往往会发生AI生成语音欺诈。但是,目前语音鉴伪技术的发展却滞后于语音合成技术。”信也科技副总裁、大数据及AI负责人陈磊表示。
在决赛中,选手运用不同算法模型和训练思路识别虚假语音,包括运用基于大模型的识别技术、基于传统端到端的识别技术等。端到端的识别技术参数量较小,聚焦更垂直的问题;大模型的参数量较大,对数据要求较高,泛化能力强,对由大模型生成的假语音数据的识别率有明显提升。
信也科技算法科学家吕强介绍,初赛的语音数据集主要由传统端到端TTS(文字转语音)生成的假语音组成,识别难度较低,复赛数据集首次加入了基于最新大模型生成的假语音、翻录假语音以及由真假语言拼接而成的样本,覆盖英语、法语、西班牙语等五种以上语言,比赛难度增加。“复赛加入由大模型生成的假语音后比赛难度变大,也能说明最新大模型‘以假乱真’的能力变强了,这要求相应的深度伪造识别技术必须跟上脚步。”
“我们特意在比赛中加入了一些新场景数据,比如翻录假语音,也就是对生成的真语音经过多次录音再生成的数据,我们认为这是假语音。”吕强表示,针对这一场景,大赛利用真假语音切片、混合,构建对抗性数据,避免人工听语音、打标签干扰比赛,“只要有一个切片是假语音,那么整条都是假语音,这更接近真实场景,但识别挑战大。如果能解决翻录问题和真假对抗,将具有学术价值。”吕强也表示,文本、视频等多模态信息有助于语音鉴伪,大模型和多模态将是语音鉴伪的重要发展方向。
伪造技术与鉴伪技术“竞赛”,两者的发展呈螺旋式上升。陈磊表示,语音大模型的研究要把应用问题抽象提炼成学术问题,在解决学术问题后经过工程化,解决具体业务场景的真实需求。鉴伪技术开发需要跨学科合作,当前的鉴伪技术以软件算法为主,未来将走向软硬一体,借助硬件溯源声音采集,从硬件层面起到假语音风险防控作用。
“鉴伪没有终点,只要生成式道路还没有走到头,鉴伪就会一直往下走。”陈磊表示,赛后信也科技将开源数据,用于更广泛的学术研究,将选手的材料脱敏后共享学习。同时在业务场景中吸收前沿模型思想,构建AIGC鉴伪平台。他认为生成式AI要符合治理规则,人工智能治理需要监管层的顶层设计进行规范和引导,同时呼吁生态共建,以产业界共创防范系统性风险。
编辑/范辉