机构最新中文大模型测评出炉 腾讯混元等位列第一梯队
北京青年报客户端
2024-05-06 21:16
5月6日,国内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。整体来看,国内大模型的第一梯队已达到或接近国际一流的水平,其中既有腾讯混元、文心一言、通义千问等来自大厂的大模型,也有GLM-4、Baichuan3、Moonshot和Minimax等大模型创业公司的代表。
SuperCLUE是国内权威的通用大模型综合性测评基准,其前身是知名的第三方中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)。SuperCLUE基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准,由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等。
本次报告选取了国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,真实准确地反映了国内外大模型在中文领域的综合能力和发展现状。
测评报告的总分排名上,腾讯混元大模型位列前三。在十大能力得分中,腾讯混元大模型的各项能力较为均衡,在语义理解能力上,以75.4的高分排名国内第一;在角色扮演、安全能力、计算、逻辑推理、工具使用、长文本能力上,也均处于位于国内一流水平。
目前,腾讯混元大模型参数量超过万亿,tokens数超过7万亿。此前国际权威调研机构沙利文发布的《2024年中国大模型能力评测》显示,腾讯混元在通用基础能力和专业应用能力已居国内第一梯队。
文/北京青年报记者 温婧
编辑/田野
相关阅读
大模型“攻坚战”腾讯再押注开源 这次用到合成数据了
第一财经 2024-11-10
腾讯开源3D生成大模型,同时支持文、图生成
北京青年报客户端 2024-11-05
腾讯汤道生:大模型要避免“内卷式竞争”,AI投入追求“细水长流”
澎湃新闻 2024-09-07
腾讯混元助力 QQ浏览器上线“AI作文辅导”
北京青年报客户端 2024-08-15
《长相思2》开播 腾讯元宝角色AI互动被“玩坏了”
北京青年报客户端 2024-07-11
科大讯飞董事长:有信心快速对标,但对中美大模型差距不能盲目乐观
观察者网 2024-07-06
2024世界人工智能大会 | 腾讯宣布开源全球最大甲骨文多模态数据集
北京青年报客户端 2024-07-05
广汽丰田科技日全面展示硬核科技,电动化和智能化进击第一梯队
北京青年报客户端 2024-06-28
最新评论