潮流|拿下大模型测评双榜第一 国产AI晋升“学霸”
北京青年报客户端 2023-11-19 09:00

国产大模型阵营再添新锐选手。根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单,整体能力已经超过GPT-3.5,在写作、考试等部分场景中优于GPT-4。该模型将应用于通用搜索、医疗健康、教育学习、职场办公等众多场景。同一阵营旗下的夸克App也将借助自研大模型全面升级,加速迈向年轻人工作、学习、生活的AI助手。

大模型浪潮席卷全球

国产AI多项性能优于GPT-4

从2022年年底,诸如ChatGPT、Midjourney、StableDiffusion等大型模型的相继亮相,掀起了人工智能大模型的发展热潮。今年上半年,大模型海啸浪潮席卷了全球,AI领域成为技术较量的核心课题。国内企业纷纷发布了各自的成果,推动了人工智能技术在各行各业的落地应用。

其中,近日由阿里巴巴智能信息事业群发布的全栈自研、千亿级参数夸克大模型,是基于Transformer架构、自主研发的多模态大模型,每天会对亿级的图文数据进行训练和精调,具有低成本、高响应、综合能力强等特点。同时,还将衍生出通识、医疗、教育等垂类模型,可以提供AIGC、智能检索的专业服务。

根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单,多项性能优于GPT-4。在国内大模型赛道火热的当下,夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。

作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆盖52个学科,是目前权威的中文AI大模型评测榜单之一。CMMLU是由MBZUAI、上海交通大学、微软亚洲研究院共同推出,包含67个主题,专门用于评估语言模型在中文语境下的知识和推理能力。

通过上万道专业题考验 覆盖数十个学科

据了解,评测过程中,夸克大模型经过了上万道专业考题的检验,覆盖几十个学科和不同学段。无论是常识问题还是社会科学知识,均展现出了处理复杂、多层次问题的能力。基于精调后的训练数据,该模型能够更好地理解问题的上下文、逻辑结构和语义关系,从而更全面、深入地分析和解决问题。

同时,在国内专业考试测试中,夸克大模型的表现堪称“学霸”。不仅在中考、高考、研究生考试中超过GPT-4,包括临床执业医师资格考试、计算机等级考试、公务员考试、教师资格证考试等评测中均优于GPT-4。具备超强解题能力的夸克大模型,应用在日常学习、工作场景,有望给用户带来效率上的全面提升。

能够取得这样的成绩,其能力源于数据、行业、知识正确性、平台四方面优势。第一,该模型拥有最全面的中文数据库,能更好地理解、评估、提炼中文知识体系;第二,自建及拥有各类题库、知识点、医疗知识图谱、书籍及出版物等资料,沉淀了丰富的数据及用户场景;第三,在通用知识、写作增强等方面,建立了从内容、搜索再到推理的一套可辨别知识真伪的技术体系;第四,组建了数百人的研发团队,在搜索、教育、医疗等垂直领域中进行大模型的预训练与精调。

强大文学创作能力 可撰写文章和诗歌

此外,夸克大模型还拥有强大的文学创作能力,能够根据用户提供的主题或关键词,生成连贯、有逻辑、有深度的文本内容,可以帮助用户撰写文章、新闻、诗歌等各类文本,支持续写、润色、仿写、批改等多种不同写作需求,进一步提高用户的创作效率。

据了解,凭借数据、行业、知识正确性、平台等四大优势,该AI大模型应用会优先落地在通识问答、专业搜索等信息服务领域,满足年轻人学习知识和提升自我的需求。未来,还将借助自研大模型全面升级,为年轻人工作、学习、生活提供更全面的服务。

文/北京青年报记者 陈斯
编辑/王静

相关阅读
群模时代小而专大模型趋势明显 “招联智鹿二代”赋能普惠金融实践
北京青年报客户端 2024-08-05
打造新质生产力强大引擎 “招联智鹿二代”大模型再获权威认可
北京青年报客户端 2024-07-31
比GPT-3.5 Turbo便宜超60% OpenAI推出小模型卷性价比
每日经济新闻 2024-07-22
科大讯飞董事长:有信心快速对标,但对中美大模型差距不能盲目乐观
观察者网 2024-07-06
半两财经|三款国产大模型“参加高考”:文科都考上了一本 但理科均未达线
北京青年报客户端 2024-06-25
首个AI高考全卷评测结果发布:最高分303,数学全不及格
第一财经 2024-06-19
智源评测了100多个大模型:头部模型接近国际一流 但还存在“偏科”
第一财经 2024-05-21
大模型参加K12学科测验:文强理弱,对图表理解能力不足
澎湃新闻 2024-05-20
最新评论