没人料到会在2024 ASC世界大学生超级计算机竞赛(2024 ASC Student Supercomputer Challenge,简称ASC24)总决赛的赛后采访现场见证冠亚军的“争执”。
“这次的神秘应用每一次模拟会是一个全局状态,没有办法分时间部做,这给算力调度带来很大困难。我们的方法是去找一些输入参数,看看能不能找到和预计时间相关的。”来自亚军队中山大学的同学话音未落,那边的冠军队北京大学同学就拿起了话筒,“我来纠正一下,这还是一个时间轴的问题。”然后给出了他们的解决方案。
这道赛题是新型材料非平庸电子结构计算,考察参赛者对石墨烯的朗道能级计算机拓扑材料表面态计算方法的理解,以及代码编译运行与程序优化的能力。
“ASC比赛的魅力并不在赛场上,而在于比赛之后同学们的自发努力。”ASC组委会委员刘羽说。ASC是世界最大规模的超算竞赛,与德国ISC、美国SC并称世界三大超算竞赛,该竞赛由中国倡议成立。ASC24超算大赛历时近六个月,全球共有300余支高校代表队报名参加,25支队伍晋级在上海大学举行的总决赛,现场决赛队伍数量创下历年之最。
热爱是驱动同学们对超算研究不断投入,比赛是一个让他们相遇的舞台,有竞技,有互助,有跨国交流。这样一场超算比赛,从主办到参与还隐隐折射出超算发展中一些难以言表却又至关重要的因素如何发挥作用,恰恰如同组委会所多次提到的,是“来自真实世界的挑战”。
ASC24全体成员赛场合影
算力调度:赛场内外的共性难题
冠亚军队的赛后交锋,是因为比赛中除了要考察解决问题的能力,还需要考虑满足3000w功耗的要求,算力调度就是关键点。
既有GPU又有CPU,两者都比较“吃”功耗,需要在赛场上应用运行追求性能时,在一个合理的平衡点上控制功耗。这就像真实世界的缩影——在算力一定的情况下,投入的资源和可承担的功耗也是相对固定的,谁能更快更有质量地解决更多的问题,谁才是最终的赢家。
ASC24决赛的7道赛题既有跨学科的模拟计算需要同学们融会贯通理解背景,也对最火的AI大语言模型推理保持着持续关注。以跨学科的赛题为例,在初赛时会有比较长的时间做准备,参赛者还能根据背景对数理方面还有计算性质进行了解,而决赛场上的神秘应用只有几个小时的时间去优化。
“所有的应用本质上到最后还是要用超算来‘算’,算就会有一些共同点,我们对这些熟悉的共同点进行优化,比如我们这次把这个应用迁移到了GPU上,这样可以在同样功耗下加速到三倍。”北京大学的孙远航同学说。
也正如真实世界中,技术必将赋能千行百业,但新兴领域永远最有关注度。“在对话框里和ChatGPT聊天和优化这背后的模型,感觉还是很不一样的。”赛场上,来自德国埃尔朗根-纽伦堡大学的 Johannes Dittrich兴奋地和第一财经分享,他和同学此前都没有AI领域的相关经验,参赛成为了研究大模型的学习过程。
预赛阶段,他们基于开源大语言模型 LLaMA2-70B构建并优化推理引擎,在组委会提供的1万样本数据集上实现尽可能高的推理吞吐量。组委会也鼓励参赛队伍充分考虑自身集群的架构特征,构建定制的高性能推理引擎。决赛阶段,参赛队伍需要基于中国的开源大语言模型AquilaChat2-34B, 构建并优化推理引擎,在组委会提供的样本数据集上使用4比特及以下量化来进行推理,在保证精度的前提下提升推理速度。
关注前沿是超算比赛的特色。与大模型优化相关的题目也曾出现在2023年的ASC当中,当时,中国科学技术大学代表队引入了业界前沿的大模型并行策略、计算加速方法和显存优化机制并均衡考虑训练速度及loss收敛性取得了全场最佳成绩。
今年的决赛队伍同样需要考虑多种优化方法实现高吞吐推理,为了防止参赛队伍仅关注低精度优化,只允许使用FP16 或 BF16精度,直面大语言模型应用落地的考验。
要想在这道大模型推理优化赛题中取得佳绩,各参赛队伍需要充分了解并掌握大模型常见的并行方法,并学习使用各种技术来优化推理过程。这不但可以让参赛选手掌握大模型推理引擎的构建,探索更加有效的并行策略和推理加速技术,降低大模型应用落地难度,激发他们深度参与人工智能产业的热情,同时也预示着超级计算领域正在主动拥抱大模型,并将在大模型应用中发挥重要作用。
赛事组委会充分认可了同学们的优化方法,比如减少节点间的通信量降低复杂度,甚至是一些向量化等等,同时也希望他们能看得更为长远。“从比赛的角度来说同学们非常棒,如果时间充足的话,要考虑这个应用或者这个领域这样的算法为什么是这样的。我们现在给大家一些比赛的用例可能是非常特定场景下的一些简化模型,实际工程中可能比这个要复杂得多,我们某些情况下的优化是不是在实际应用场景中就不适用了呢?”刘羽说。
超算的三大“场外”挑战
在一场超算比赛的背后,可以简化的是应用问题,但还有更多挑战因素难以简化。
比如当来自台湾清华大学的黄恩明和媒体透露,自己曾作为参赛队员在2020年参加过美国的SC,2023年到欧洲参加ISC和ASC的线上赛。一些其他高校的队员闻言投去了羡慕的目光。就在2023年,一家知名高校的带队老师就曾告诉过第一财经,“SC和ISC的超算比赛我们的学生也想参加,但签证就是一道门槛。”也是那一年,第一财经惊讶地发现一位曾经采访过的ASC队员以出题方的身份再次现身赛场,在闲聊中才得知他在毕业后因为地缘关系紧张申请并不顺利,因此没有按照原计划继续深造而是入职了一家知名的AI科技公司。今年,决赛现场有来自阿根廷、德国的参赛队伍。ASC专家委员会主席、图灵奖获得者、田纳西大学杰出教授杰克・唐加拉(Jack Dongarra)进行了闭幕式致辞时婉转表达了他的期待:“ASC激励下一代的高性能计算科学家和工程师们,使用最尖端的技术提供创新的解决方案。ASC竞赛是世界上最大的超算竞赛,致力于培养下一代青年人才,在超算和人工智能领域探索、创新和合作。”
Jack Dongarra ASC24闭幕式致辞
算力分配不均也是高校研究中的一大掣肘。“我们整个备赛的过程是相当艰难的,学校虽然有超算,但非常紧张,一个任务提交上去可能需要等几十个小时。”一位来自中国香港地区的参赛学生告诉媒体,因为是学生组织参赛,最后在备赛的时候没有算力保障,用的是机房电脑自己组了设备测试方案的可行性。“坚持下来还是挺不容易的”,他有这样的感慨。在决赛现场,还出现了一所内地高校使用的GPU卡因为型号落后无法插在服务器上使用的情况,还是现场观摩的赞助商提供了GPU得以完赛。
最核心的是AI技术普及落地的时候,如何在算力基础建设领域提升异构计算能力。这是浪潮、联想、中科曙光、新华三等国内厂商都在发力的方向。“异构之后算力的调度是一个很关键的平台。”在说起新华三的傲飞平台能够支持万卡集群多元算力的调度时,新华三集团高级副总裁、云与计算存储产品线总裁徐润安告诉第一财经,异构带来真正的挑战是组合,既体现在硬件工程的能力上,也包括基于OAM(操作、维护、管理)的设计能力。
能解决核心问题,就意味着获得未来的发展机会,这一点在商业上也会有所体现。“算力的生产建设,多是最上游的原厂商,这方面门槛比较高,可能要涉及芯片、硬件还涉及到系统,适合有实力的大企业。算力的直接生产者、提供者,今天也有机会,新投资商业性的算力中心还有盈利前景。在算力的调度环节里,这个机会未来倒是蛮多,但是需要很多的技术细节来实现。”中科曙光高级副总裁任京暘告诉第一财经。
编辑/樊宏伟