北京青年报

GPT-4o模仿人声说“不” 无意的语音生成仍是模型弱点

澎湃新闻 2024-08-13 10:14

和机器人对话，机器人突然开始用你的声音和你说话，这并非科幻剧情，而是OpenAI披露的GPT-4o的诡异行为。

当地时间8月8日，OpenAI公开了ChatGPT背后的新型人工智能模型GPT-4o的安全报告，详细说明模型限制和安全测试程序。评估的风险包括说话人身份识别、未经授权的语音生成、潜在的版权内容生成、无根据的推理和不允许的内容。在大模型的高级语音模式中，用户可与人工智能助手进行语音对话，报告显示，在测试过程中的极少数情况下，高级语音模式在未经允许的情况下会模仿用户的声音。

OpenAI提到，一个嘈杂的输入会以某种方式促使模型突然模仿用户的声音。在OpenAI提供的无意的语音生成例子中，AI模型发出“No”的声音，后用一种与“红队”（OpenAI雇佣进行对抗性测试的人）相似的声音继续说话。新闻网站BuzzFeed的数据科学家马克斯·伍尔夫（Max Woolf）在社交媒体上对此评价，“OpenAI刚刚泄露了《黑镜》下一季的剧情。”

GPT-4o可以在232毫秒内响应音频输入，平均时间为320毫秒，这与人类在对话中的响应时间相似。它可以合成训练数据中发现的几乎任何声音，包括声音效果和音乐。

OpenAI披露的实例反映了AI聊天机器人的安全架构越来越复杂。在未经授权的语音生成示例中，来自用户的音频噪声混淆了模型，并作为一种无意的提示注入攻击，将系统提示中的授权语音样本替换为来自用户的音频输入。目前尚不清楚嘈杂的音频究竟是如何导致这种情况的，但音频噪音可能被转化为随机的token，从而引发模型中的意外行为。

目前OpenAI设计了安全措施来防止模型模仿用户声音的情况，OpenAI提供授权的语音样本供模型模仿，也用另一种系统检测模型是否产生了未经授权的音频。“我们只允许模型使用某些预先选择的声音，并使用输出分类器来检测模型是否偏离了这些声音。”OpenAI表示，他们发现，未经授权的语音生成的剩余风险很小，在内部评估中目前系统100%捕捉到与系统声音有意义的偏差。

“虽然无意的语音生成仍然是模型的一个弱点，但我们使用二级分类器来确保发生这种情况时对话将被中断，从而使无意的语音生成风险降到最低。”但OpenAI也表示，当对话语言不是英语时，可能会导致模型过度拒绝。

对于说话人身份的识别，OpenAI对GPT-4o进行了后期训练，让它拒绝根据输入音频中的声音来识别某人，但可以识别与名言相关的人。同时训练GPT-4o拒绝输出版权内容，建立了过滤器来检测和阻止音乐输出。

据Ars Technica报道，独立人工智能研究员西蒙·威尔森（Simon Willison）表示，虽然GPT-4o语音合成能力的潜力目前受OpenAI的限制，但随着时间的推移，类似的技术可能会从其他来源出现。“ElevenLabs已经可以为我们克隆声音了，大约明年我们就可以在自己的机器上运行这样的模型了。”

编辑/范辉