北京青年报

潮流｜拿下大模型测评双榜第一国产AI晋升“学霸”

北京青年报客户端 2023-11-19 09:00

国产大模型阵营再添新锐选手。根据最新成绩，千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单，整体能力已经超过GPT-3.5，在写作、考试等部分场景中优于GPT-4。该模型将应用于通用搜索、医疗健康、教育学习、职场办公等众多场景。同一阵营旗下的夸克App也将借助自研大模型全面升级，加速迈向年轻人工作、学习、生活的AI助手。

大模型浪潮席卷全球

国产AI多项性能优于GPT-4

从2022年年底，诸如ChatGPT、Midjourney、StableDiffusion等大型模型的相继亮相，掀起了人工智能大模型的发展热潮。今年上半年，大模型海啸浪潮席卷了全球，AI领域成为技术较量的核心课题。国内企业纷纷发布了各自的成果，推动了人工智能技术在各行各业的落地应用。

其中，近日由阿里巴巴智能信息事业群发布的全栈自研、千亿级参数夸克大模型，是基于Transformer架构、自主研发的多模态大模型，每天会对亿级的图文数据进行训练和精调，具有低成本、高响应、综合能力强等特点。同时，还将衍生出通识、医疗、教育等垂类模型，可以提供AIGC、智能检索的专业服务。

根据最新成绩，千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单，多项性能优于GPT-4。在国内大模型赛道火热的当下，夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。

作为国内最权威的两个大语言模型测试榜单，C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集，覆盖52个学科，是目前权威的中文AI大模型评测榜单之一。CMMLU是由MBZUAI、上海交通大学、微软亚洲研究院共同推出，包含67个主题，专门用于评估语言模型在中文语境下的知识和推理能力。

通过上万道专业题考验覆盖数十个学科

据了解，评测过程中，夸克大模型经过了上万道专业考题的检验，覆盖几十个学科和不同学段。无论是常识问题还是社会科学知识，均展现出了处理复杂、多层次问题的能力。基于精调后的训练数据，该模型能够更好地理解问题的上下文、逻辑结构和语义关系，从而更全面、深入地分析和解决问题。

同时，在国内专业考试测试中，夸克大模型的表现堪称“学霸”。不仅在中考、高考、研究生考试中超过GPT-4，包括临床执业医师资格考试、计算机等级考试、公务员考试、教师资格证考试等评测中均优于GPT-4。具备超强解题能力的夸克大模型，应用在日常学习、工作场景，有望给用户带来效率上的全面提升。

能够取得这样的成绩，其能力源于数据、行业、知识正确性、平台四方面优势。第一，该模型拥有最全面的中文数据库，能更好地理解、评估、提炼中文知识体系；第二，自建及拥有各类题库、知识点、医疗知识图谱、书籍及出版物等资料，沉淀了丰富的数据及用户场景；第三，在通用知识、写作增强等方面，建立了从内容、搜索再到推理的一套可辨别知识真伪的技术体系；第四，组建了数百人的研发团队，在搜索、教育、医疗等垂直领域中进行大模型的预训练与精调。

强大文学创作能力可撰写文章和诗歌

此外，夸克大模型还拥有强大的文学创作能力，能够根据用户提供的主题或关键词，生成连贯、有逻辑、有深度的文本内容，可以帮助用户撰写文章、新闻、诗歌等各类文本，支持续写、润色、仿写、批改等多种不同写作需求，进一步提高用户的创作效率。

据了解，凭借数据、行业、知识正确性、平台等四大优势，该AI大模型应用会优先落地在通识问答、专业搜索等信息服务领域，满足年轻人学习知识和提升自我的需求。未来，还将借助自研大模型全面升级，为年轻人工作、学习、生活提供更全面的服务。

文/北京青年报记者陈斯
编辑/王静