无论你说普通话还是英语,它都能翻译成上海话。一款名为“小沪”的沪语大模型,昨天下午在第六届中国数字人文年会上亮相。作为上海大学打造数字城市“上海‘繁花’大模型”的组成部分,“小沪”致力于沪语的保护与发展。
“小沪”形象由上海大学上海美术学院教授何晶晶设计
“让AI学会讲沪语不是目的,让沪语更好地在人类语言中得到传承、创新和发展才是目标。”沪语大模型“小沪”主创团队负责人、上海大学党委宣传部部长曾军说,目前“小沪”还处于1.0版本,即尚在听说读阶段,它会沪语朗读,也基本上可以普通话与沪语“自由”对话。经过改进后的2.0版本,将实现沪语与沪语之间的顺畅交流,并开发男生沪语、童声沪语等个性化的沪语库版本。发展到3.0版本的“小沪”,将增加演唱沪语歌的功能。随着技术的不断升级,“小沪”的应用场景和领域也会不断拓展,社会服务功能不断增强,可以广泛用于沪语AI助手——助老语音服务、沪语主播、沪语语伴、沪语客服、沪语教学、沪语与外语的即时互转互译等。
上海大学是上海话的研究重地,积累了优质和丰富的沪语语料。著名语言学家、沪语研究专家钱乃荣教授编撰了《上海话大词典》,发明了上海话输入法。丁迪蒙副教授是著名的沪语朗读专家,此次加盟大模型团队,为“小沪”的上海话发音校正把关。同时,上海大学还配备了语音学实验室,建立了开发沪语AI集成的专家团队。研发“小沪”的上海大学文学院中文学科团队目前正在全力构建高质量文本数据集,广泛采集书写规范、语法规范的沪语文本数据集,为的是沪语模型表达更加精准和地道,减少发音歧义。
“What are the places worth visiting in Shanghai?(上海有哪些值得去游玩的地方)”“上海外滩交关好白相,夜景邪气漂亮。还有南京路、城隍庙,也牢值得去白相相。”……在展示现场,“小沪”用一口地道的上海闲话回答一位外国客人的询问,引来围观者热烈的掌声。虽然首次亮相的表现十分出色,但“小沪”距离能真正上市应用还有艰难的路程要走。主创团队介绍,沪语是吴方言的代表,使用人口众多,但从信息计算的角度说,仍然是一种低资源的语言,最大的难点就在于要建设一个高质量的数据集。目前正是因为能够采集到的书写标准且语法规范的沪语自然语料还比较少,限制了模型性能的进一步提升。所以,团队成员正在攻关开发语音识别和人工转写系统,构建更大规模的高精度沪语语料库,将来让“小沪”能听懂、会说出上海人几乎所有的日常用语。
记者/王蔚
来源/新民晚报
编辑/乔颖