北京青年报

讯飞星火大模型升级：74个语种方言“自由对话”，破解强干扰场景语音识别难题

北京青年报客户端 2024-06-28 16:01

6月27日，科大讯飞在北京发布讯飞星火大模型V4.0及相关落地应用。

自去年9月全面开放以来，讯飞星火APP在安卓公开市场累计下载量达1.31亿次。此次升级后的讯飞星火V4.0 七大核心能力全面升级，全面对标GPT-4 Turbo，并实现在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面的整体超越。

现场，科大讯飞董事长刘庆峰展示了讯飞星火V4.0在复杂指令、复杂逻辑推理、空间推理、高中数学等方面的效果，星火“智商”再度进化。以空间推理为例，“Bob在客厅里。他拿着一个杯子走到厨房。他把球放进杯子里，然后拿着杯子走到卧室。他把杯子倒过来，然后走到花园。他把杯子放在花园里，然后走到车库。问题：球在什么地方？”讯飞星火可以基于空间和常识推断出球在卧室的地面上，这些能力的进步对于以后的具身智能、家庭机器人都具有意义。

近期科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目，获得国家科学技术进步奖一等奖。此次星火语音大模型迎来新突破。星火语音大模型发布国际领先的多语种多方言免切换语音识别能力，可支持37个语种、37种方言“自由对话”。其中，37个语种识别效果领先OpenAI whisper-V3，37个方言识别效果平均提升30%。现场，科大讯飞演示了讯飞输入法混合方言和外语的语音输入效果，能让输入效率大大提高。

科大讯飞还发布了软硬件一体化讯飞同传系统，可支持大会同传、会议同传、展厅同传、旅游同传等多场景使用。本次参会的嘉宾座位上同样配备讯飞同传的收听设备，佩戴后即可实时收听多语种AI同声传译。

针对强干扰场景下的语音识别难题，科大讯飞突破了多人混叠场景下的极复杂场景语音转写，即使在三人混叠说话场景也能实现86%的语音识别准确率。三位讯飞研究院的研究员现场实测了在噪音场景下，同时混叠着说话，正常人耳已难以听清，只见讯飞星火的多模态能力不但实现了三人重叠语音的角色分离，还能实时转写出每个人说的话。未来基于多模态的声音识别技术，将应用在讯飞听见智慧办公、智慧屏等会议办公产品中。

自去年5月6日发布以来，讯飞星火大模型正成为国家能源集团、中国石油、中国移动、中国人保、太平洋保险、交通银行、奇瑞汽车、中国一汽、大众汽车、江汽集团、海尔集团、美的集团等多领域头部企业的首选。

讯飞星火已经在代码、合规审查、客服、评标、智能交互等多个典型场景产生应用成效，以交通银行为例，基于星火大模型能力的产品iFlyCode覆盖6000+研发人员，代码采纳率达38%，工作效率显著提升。

此次星火企业智能体平台正式发布。在代码智能体iFlyCode中，它集成了代码生成助手、架构设计助手、代码问答助手、测试助手、数据库优化助手、代码审核助手等六大场景智能体，将采纳率由30%提升至52%。

星火商机助手可以实现商机线索应知尽知、客户拜访提质增效、销售管理智能研判，助力一线销售和商机管理效能提升。星火评标助手通过标前寻源、智能评标、定标审核等功能，智能评标结果人机一致率达98%，投标异常检出率超过80%，在大幅提升企业评标效率同时降低采购成本。

文/北京青年报记者温婧
编辑/田野