北京青年报

国内首个！文心X1 Turbo获信通院“4+级”最高评级

北京青年报客户端 2025-05-20 18:12

5月20日，中国信通院发布大模型推理能力评估结果。结果显示，百度文心X1 Turbo在24项能力评估中，16项达5分、7项达4分、1项达3分，综合评级获当前最高级“4+级”，成为国内首款通过该测评的大模型。文心X1 Turbo逻辑推理、代码推理、推理效果优化等技术能力及工具支持度、安全可靠度等应用能力均获得满分。

中国信息通信研究院人工智能研究所平台与工程化部主任曹峰从全球大模型发展、从测评看大模型能力演进以及文心大模型推理能力评测解读等行业视角在现场进行了趋势解读。他指出，2024年人工智能能力持续进化，在多任务语言理解、竞赛级数学、博士级科学问题等之前具有挑战性的基准测试中超越了人类的表现。

他进一步表示，评估结果表明，文心X1 Turbo擅长结构化的逻辑思考，并具备平衡模型能力与效率的优化技术，其有效的数据机制保障了模型的可信及可用程度，其推理服务能广泛支持各类应用。文心X1 Turbo强化推理泛化能力，拓宽工具链应用生态，加强安全机制建设，构筑可信应用保障壁垒。

百度集团副总裁吴甜对文心大模型最新版本的技术创新进行了系统性地讲解。她介绍，文心大模型4.5是多模态基础大模型，文心4.5 Turbo源自文心4.5，效果更好、成本更低；基于文心4.5 Turbo，文心X1升级到X1 Turbo，性能提升的同时，具备更先进的思维链，问答、创作、逻辑推理、工具调用和多模态能力进一步增强。

文心4.5和4.5 Turbo实现了文本、图像和视频的混合训练。针对不同模态数据在结构、规模、知识密度上的差异，通过多模态异构专家建模、自适应分辨率视觉编码、时空重排列的三维旋转位置编码、自适应模态感知损失计算等技术，大幅提升跨模态学习效率和多模态融合效果，学习效率提高近2倍，多模态理解效果提升超过30%。

吴甜表示，大模型的能力进一步拓展、效率进一步提升之后，可以探索更前瞻、更有想象力的创新应用。

以数字人为例，超拟真数字人需要具备出色的表现力、吸引人的内容、数字人与场景、物品的互动等，需要综合运用多模态AI技术。百度研制了“剧本”驱动多模协同的超拟真数字人技术，实现了语言、声音、形象的协调一致。目前这套技术已经支持超过10万数字人主播，直播转化率达31%，降低80%直播开播成本。在代码场景上，基于文心大模型的语言和代码能力，百度研制了代码智能体和智能代码助手——文心快码。百度每天新增的代码中，文心快码生成的代码占比已超过40%。截至目前，文心快码已向全社会开放，累计服务760万开发者。

文/北京青年报记者温婧
编辑/倪家宁