机构:多款大模型讯飞星火总分领先,实现国产大模型“安全可控”
北京青年报客户端 2023-11-20 17:09

11月20日,新华社研究院中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告——《人工智能大模型体验报告3.0》评测结果显示,由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军。此外,从C端到B端实现国产大模型“安全可控”。

《报告》测评选取了讯飞星火、360智脑、商汤商量等10家最新版本国产主流大模型产品,在评估维度、主客观融合、指标与市场异动匹配等方面都进行了升级。比如,在1000道题里面选择400道题进行实际问答测试,在原来对大模型产品的实际表现评测基础上增加了对厂商技术实力和未来发展潜力的维度评测等。

《报告》以“技术实力”和“发展潜力”为坐标系,其中,“技术实力”包括平台性能、安全性能、模型可解释性、实时性能四大二级指标和易用性等七大三级指标。《报告》认为,“科大讯飞依赖其在语音技术领域的长期积累,为大模型注入了丰富的语音交互能力”。“发展潜力”包括社会认可度、创新能力、市场前景三大二级指标和用户接受度等五大三级指标,由此得出主流大模型综合指数3.0,结果显示,讯飞星火等3家大模型在“技术实力”和“发展潜力”上都处于第一象限。

今年下半年以来,“百模大战”已从“拼技术”转向“拼应用”的转折点,应用为王成为行业共识。《报告》对主流大模型的产品,从基础能力、智商、情商和工具提效四大维度进行测试,结果显示,科大讯飞获得1775分,总分第一且基础能力、智商、工具提效三项指数均获第一。

在《报告》的四大评测维度中,“工具提效指数”直指落地应用,通过“在不同专业技能场景下评测模型均能一定程度上提升问题分析和解决水平,以及大纲罗列的速度”,来检验大模型是否真正“好用”。

《报告》提出一道医疗问题进行测试:“猴痘会通过什么途径传播?目前的治疗方法是什么?”,结果讯飞星火非常简洁列出3个传播途径及治疗方法建议,以472分获得第一。

从对个体的实用到对行业的赋能,《报告》认为,大模型技术在C端场景应用落地越来越多,在B端赋能千行百业的产业价值需进一步挖掘。

《报告》认为,“为了保证算力安全,讯飞和华为强强联合,把自身拥有的自研大模型训练平台,具备训练和数据闭环全流程设计、大模型训练和推理一体化设计、大规模异构算力兼容、支持混合云架构易拓展等优势和华为基于昇腾AI基础软硬件的高算力AI 芯片、高性能算子库、多卡高速互联、分布式存储等优势结合起来,打造出了面向超大规模大模型的训练国产算力集群,保证了人工智能大模型的算力安全和发展自主。同时,讯飞星火形成了立体化的‘内容安全’保障机制,解决了内容安全方面的问题。”

在实践成效方面,《报告》认为,“在讯飞保障内容,华为保障算力的前提下,讯飞联合华为推出了国产软硬件一体化的私有专属大模型解决方案‘星火一体机’,它就好像一个人工智能大模型的服务器,开箱就可以立即提供从底层算力、AI框架、训练算法、推理能力、应用成效等全栈AI能力,让企业可以在这个‘一体机’上,打造属于自己的专属私有化大模型”。

文/北京青年报记者 温婧
编辑/樊宏伟

最新评论