北京青年报

AI“高考”考得怎么样？语文、英语表现良好数学成绩不及格

解放日报 2024-06-20 08:04

上海人工智能实验室昨天公布了多名“AI考生”参加今年中国高考的成绩，阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星（InternLM2-20BWQX）成为前三名，得分率均超过70%。大部分“AI考生”在语文、英语科目上表现良好，但数学成绩不尽如人意。其中，“书生·浦语”2.0文曲星获得数学最高分，超越包括GPT-4o在内的其他大模型。

大模型数学成绩不及格

今年高考结束后，司南评测体系OpenCompass选取6个开源大模型和GPT-4o，开展了语文、数学、英语全卷能力测试，评测采用全国新课标I卷。成绩由具有高考评卷经验的教师人工评判，接近真实阅卷的标准。

这六个大模型分别是阿里巴巴开源的Qwen2-57B和Qwen2-72B、上海人工智能实验室开源的“书生·浦语”2.0文曲星、智谱AI开源的GLM-4-9B、零一万物开源的Yi-1.5-34B、法国企业Mistral开源的Mixtral 8x22B。由于无法确定闭源大模型的更新时间，为公平起见，此次评测没有纳入商用闭源模型，只引入GPT-4o作为评测参考。

因为受测的开源模型均为大语言模型，在评测过程中，仅输入文字题干（数学包含2道带图试题），英语听力部分（分值30分）不纳入此次评测。结果，阿里Qwen2-72B以总分303分排名第一，其中语文124分（满分150分），数学70分（满分150分），英语109分（满分120分）；GPT-4o以总分296分位居第二，其中语文111.5分，数学73分，英语111.5分；“书生·浦语”2.0文曲星以0.5分之差排名第三，其中语文112分，数学75分，英语108.5分。

可以看到，“AI考生”前三名都擅长文科，语文和英语成绩优良，而数学推理能力有待提升，高考数学成绩都不及格。目前，数学是所有大模型的短板，得益于上海人工智能实验室在数学推理上的投入，“书生·浦语”2.0文曲星在高考中得到75分，在所有受测模型中位居榜首，但仍存在较大提升空间。

阅卷老师点评考生表现

与以往多采用高考客观题评测大模型的方式不同，在此次测试中，研究团队使用了语数外三科的全卷试题，既有选择、填空等“答案唯一性”题目，也包括简答、阅读理解、作文等主观题，在更接近真实高考的环境中测试模型的能力。

为贴近高考评卷模式，研究团队邀请多位有阅卷经验的高中教师对主观题答案评分，每份考卷至少由3人分别打分。遇到评分悬殊的情况，老师们会进行复核，尽量做到评分公正，为人工智能学术界和产业界提供更有价值的参考指标。与真实的高考一样，所有大模型答卷均进行了匿名处理，避免阅卷教师产生“先入为主”的观念。

对于这些“AI考生”的语数外水平，老师们给出了中肯的评价——语文评卷显示，大模型的现代文阅读理解能力普遍较强，但不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题，虽有针对性，但缺乏修饰，几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”，大模型也无法完全理解。数学评卷显示，大模型的主观题回答相对凌乱，解题过程有迷惑性，甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强，但无法在解题过程中灵活运用。大模型的英语整体表现良好，大模型写的英语作文普遍存在因超出字数限制被扣分的情况，而人类考生大多因为字数不够被扣分。

文/俞陶然

供图/视觉中国

编辑/倪家宁