让超算有弹性 用超算更自由
中国科学报 2021-11-27 11:29

阿斯顿马丁·红牛车队是世界一级方程式锦标赛(F1赛车)颁奖台上的常客。这背后的秘诀,除了红牛车队拥有性能优异的赛车和技艺娴熟的车手之外,他们还有一招“高科技”。

在每次比赛之前,红牛车队都会动用超级计算机根据赛道及比赛环境做数字模拟,这包括但不限于使用虚拟风洞来优化赛车的空气动力学模型、模拟电源散热效率以让赛车发挥出最大功率、模拟赛车撞击来优化车身结构以及让赛车符合比赛的安全规定等等。总之,借助超级计算机,红牛车队会利用一周的时间完成这一系列针对性的模拟和优化,以保证他们在每一场比赛都有备而来。

这是高性能计算机(HPC,也称超算)有着广泛用途的一个例证,各行各业都有机会通过超算挖掘潜力。然而麻烦在于,并非所有希望用上超算的人或团队都有红牛车队那样雄厚的背景,有机会搭建一套完全属于自己超算平台。事实上,怎么用上“高大上”的超算,长期以来都是困扰供需两方的一大难题。

尤其是,HPC当前还面临着与大数据和人工智能应用融合的新场景。

传统超算应用的痛点

事实上,各大超算中心不可谓不开放。以广州超算为例,部署于此的“天河二号”超级计算机作为大湾区顶尖的超算平台,是粤港澳高校院所眼里的香饽饽。为了提高其资源共享能力,2018年广州超算还联合9家粤港澳高校成立“粤港澳超算联盟”,推动超算资源共享。

青云QingCloud云平台&服务部高级总监陈海泉观察后认为,这类大型超算的使用方式有两个潜在的痛点:不方便和不安全。

传统的超算中心用户在申请使用超算平台时,首先要提交申请,并等待人工审批;当审批得到通过后,用户需要自行安装VPN客户端以连接超算中心提供的登录节点。

而要说明的是,一些大型超算中心的登录节点往往是多用户共享的。陈海泉说,共享登录节点有两个问题,一是超算中心为了保证其自身安全,不提供用户根用户权限(即root权限),这会给用户安装应用软件带来一些麻烦——比如用户如需要安装系统软件,需要到超算中心实地现场指导运维人员安装;二是Linux系统漏洞不可避免,如果漏洞被个别用户利用得到root权限,就能窃取平台上其他用户的数据。

猛增的大数据和人工智能业务,也对传统超算提出着新的挑战。

陈海泉认为,大数据应用自带两大需求:存储容量大、存储要求多(数据类型多样),单一超算资源难以同时满足用户“既要计算性能、又要存储容量、还要价格便宜”的诉求;而许多人工智能业务则需要充足的GPU资源,以及匹配的软件框架(如TensorFlow等),这对于以Slurm调度器为主的超算中心而言也意味着很大的挑战。

镇痛药方:弹性高性能计算

洞察到这些痛点,从事企业级云计算服务的青云QingCloud于11月23日宣布入局高性能计算,希望通过云平台的加持,解决超算应用中的挑战。

青云用“云平台+超算”开出的“药方”,是弹性高性能计算(EHPC)。

弹性,顾名思义,是希望提供的超算资源灵活可伸缩。如何做到弹性?青云的做法是,依托超算中心构建算力池,用公有云服务的方式,提供用户所需的算力及扩展。简而言之,青云EHPC对超算中心提供运营服务,对超算用户提供超算应用入口。

换句话说,青云在超算与用户之间扮演了一个类似房屋中介的角色。

陈海泉认为,基于上述超算应用的痛点,青云这个“中介”能够发挥独特作用。比如,在虚拟化技术加持下,QingCloud EHPC平台提供用户独立(相互隔离的)计算、网络、存储空间,用户拥有独享的登录节点,同时借助虚拟化技术还可快速为不同业务构建其所需的运行环境,并可随时在不同软件平台切换,充分利用超算中心的硬件资源满足各类业务需求。

拥有独享登录节点并不是EHPC的全部,毕竟独享登录节点和独享HPC集群还有所区别。据QingCloud EHPC产品经理苗慧介绍,青云还可为用户提供独享的EHPC集群。

在独享EHPC集群下,用户可以拥有一个根用户账号(root账号),这使得用户不仅能够自由安装所需系统软件,还可以自由搭配所需的计算、存储、网络等硬件,以满足特定业务场景。当然,这种模式下也不必排队等待,可以像红牛车队那样自由地享用超算便利。

不排队不浪费的算力网络

在为传统超算应用中存在的痛点开出药方的同时,也考验着青云QingCloud这样的“中介”的技术能力。他们一头连着超算,一头连着各行各业的用户,需要不仅摸得清超算的“脾气”,还要对不同专业有所洞察:他们用什么软件、该如何调试运行脚本、出现问题该怎么应对等等。因此,这是一个技术含量高、综合能力强的“中介”角色。

青云是一家有着公有云服务基因的技术公司,他们在与用户的交互中也有机会锻造一批交叉技术人才。苗慧也表示,青云有专门的EHPC技术支持队伍,现在规模有数十人,他们主要面对非计算机专业用户的应用问题。当然,作为必备,QingCloud EHPC还有丰富的应用软件,涵盖分子生物学、新材料、新能源、大气海洋环境、地球物理等领域,这些软件通过共享软件目录的形式,供用户调用。

目前,青云已经与某国家级超算中心等超算平台展开合作,通过将超算中心接入分布式云节点的方式,让超算平台实现开放共享。

陈海泉表示,青云可以为超算中心做私有化超算云平台部署,也希望跟超算中心合作共建算力共享的算力网络,以此实现为用户提供不排队的超算资源、为超算平台减少资源浪费的愿景,真正让“突发业务显得超算资源不够用、业务量少时造成超算空置浪费”的痛点成为过去式。

编辑/范辉

最新评论