北京青年报

大模型参加K12学科测验：文强理弱，对图表理解能力不足

澎湃新闻 2024-05-20 10:08

5月17日，北京智源人工智能研究院推出智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果，其中包括49个参加K12学科测验的大模型测验结果，该测验旨在考察大模型与人类学生的学科水平差异。结果显示，大模型在学科测验上略低于北京海淀各年级学生平均水平（教师预估）。

在北京海淀区教委支持下，智源研究院联合与海淀区教师进修学校对齐学生测验方式，考察大模型与人类学生的学科水平差异，其中，答案不唯一的主观题由海淀教师亲自评卷。在大模型K12学科测验中发现，模型在综合学科能力上与海淀学生平均水平仍有差距，普遍存在文强理弱的情况，并且对图表的理解能力不足，大模型未来仍有提升空间。

北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时表示，在语文、历史等人文学科的考试中，模型欠缺对文字背后的文化内涵以及家国情怀的理解。例如在“依据材料并结合所学，概括清代白银流动的变化并加以分析”时，某些大模型认为只是一次殖民扩张，没有阐述其背后的意义。但题目还需学生指出这场战争意味着贸易侵略、丧权辱国。这些价值判断和爱国主义情怀是学生学习历史最重要的意义。如果学生在未来依赖于大模型寻找参考答案，而大模型并不具备正确的历史观和中国人应该拥有的家国情怀，不利于学生价值观的养成。

面对历史地理综合题时，模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题，模型反而更擅长复杂的英语题。解理科题目时，模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时，模型依然存在明显的“幻觉”。

本次评测还从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力，主客观评测总计约5.8万题，其中主观更偏重考察中文能力。在中文语境下，国内头部语言模型的综合表现已接近国际水平，但存在能力发展不均衡情况。语言模型主观评测结果显示，在中文语境下，字节跳动豆包Skylark2、OpenAI的GPT-4位居前列，国产大模型更懂中国用户。在语言模型客观评测中，GPT-4、百川智能Baichuan3位列前列。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。

多模态理解模型是指模型能够接受文本、图片等不同模态的信息输入并回答相关问题。评测主要考察模型的图文问答能力，共评测20余个模型。多模态理解模型客观评测结果显示，图文问答方面，阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5领先于OpenAI GPT-4。在多模态理解图文问答任务上，开闭源模型平分秋色。

多模态生成模型是指模型能够接受文本、图片等不同模态的信息，并生成不同模态的内容。本次评测选取“文本-图像”生成和“文本-视频”生成模型，共评测20余个模型。多模态生成模型文生图评测结果显示，OpenAI DALL-E3位列第一，智谱华章CogView3、Meta-Imagine分居第二、第三，百度文心一格、字节跳动doubao-Image次之。多模态生成模型文生视频评测结果显示，OpenAI Sora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小。在多模态模型的文生视频能力上，对比各家公布的演示视频长度和质量，Sora优势明显，其他开放评测的文生视频模型中，国产模型PixVerse表现优异。

依托科技部“人工智能基础模型支撑平台与评测技术”和工信部“大模型公共服务平台”项目，智源研究院与10余家高校和机构联合开展大模型评测方法与工具研发。2023年6月，由智源研究院与多个高校团队共建的FlagEval大模型评测平台上线，迄今完成1000多次覆盖全球多个开源大模型的评测。此次模型评测使用20余个数据集、超8万道考题，采取了客观评测统一规则与主观评测多重校验打分相结合的方法，其中，开源模型采用模型发布方推荐的推理代码及运行环境，对所有模型统一使用业界通用的提示语，不针对模型做提示语的优化。

编辑/范辉