北京青年报
并行科技董事长:中国超算应用软件发展失去20年 要用更大代价追赶
澎湃新闻 2022-12-20 11:18

自上世纪80年代我国“银河-I”巨型计算机的问世,到如今中国超算多次摘得世界第一,我国超算发展实现了从跟跑、并跑到领跑的转变。成立于2007年的超算云服务和运营服务提供商北京并行科技股份有限公司董事长陈健日前对澎湃科技表示:“中国超算行业硬件发展不错,人力有优势,但我们的应用软件落后了至少20年,需要用更大的代价来追赶。”

目前总体上国外应用软件占主流

中国研制超级计算机的历史要从20世纪60年代开始。1960年,我国成功研制出中国第一台自行设计的通用数字电子计算机107型计算机。1983年12月,“银河-I”巨型计算机通过国家鉴定,运算速度为每秒1亿次以上,它的问世使得中国成为世界上少数几个成功研制巨型计算机的国家之一。1998年,我国进入高性能计算机与网格计算环境并重的状态,以便形成可以使用的计算能力。

过去20年,中国超算算力和超算应用迅速发展,超算人才和应用人才涌现。中国超算多次获得世界第一,天河二号连续六次摘得“全球超级计算机500强”冠军,“神威·太湖之光”超级计算机连续四次获得世界第一。陈健表示,“20年前,国内真正懂高性能计算的人很少,而今天超算算力已经成为科研的主要力量。”

国内海量超算应用正在发展中,但总体上国外应用软件占主流。“我们的日常活跃用户大概在2万多,我们知道用户在跑什么程序,排名前十的应用清一色是开源系统或国外商业软件。”

“国内硬件发展很好,人才培养得也相当不错,但是软件有一个最大特点,它要基于前人的力量迭代向前发展。”陈健表示,中国超算行业的应用软件发展失去了20年,最近10年实实在在加大投入。目前超算应用软件开发成本高,20年前的人力成本与今天相比也是天壤之别。超算开发者分为计算机专业人才和面向行业的算法人才,超算行业人才竞争激烈,互联网公司薪资高,面向行业的传统软件算法工程师流失。同时,软件开发后还需解决销售问题。

“超算应用软件开发难度大幅加大。”他表示,改变软件落后局面需要用更大的代价来追赶。目前行业已达成初步共识,在国外商业软件已经大量普及使用并占领用户自有系统的背景下,国产工业软件的突围路径,是通过SaaS(软件即服务)化云服务来推广和服务用户。“用户不再需要购买硬件,不再需要安装调试软件,也不再需要考虑运维和服务,直接用就可以了。在云服务模式下,国外商业应用软件和国内应用软件相对来说在相同的起跑线上。”

“我们提出了一个 ‘雏鹰计划’,针对商业化的国产工业软件,将算力价格降至10%,将90%的价值转移支付给国产工业软件,我们希望通过这样的方式,能够让国产工业软件获得更多用户,获得更多资金支持,支持国产工业软件长期持续发展。”陈健表示,一定要让对用户真正有价值的国产工业软件能够从市场上获得资金,帮助国产工业软件度过早期的推广期和起步期。

算力如何匹配不同需求

1993年考取清华大学工程力学系,但陈健偏爱计算机,他将计算机作为第二选修专业,并担任水木清华BBS电脑硬件版版主,创办电脑市场版。1997年,作为清华本硕博联合培养的第一批实验生,他提前一年完成本科学业,继续在清华攻读流体力学博士课程,2000年赴荷兰代尔夫特理工大学做访问学者,这段出国经历也让他体验到超级计算机极大提升科研的速度和效率。

2002年,他从清华大学博士毕业,放下了力学专业,加入超算事业,先后进入联想、英特尔公司。2013年,他出任并行科技总经理,聚合全国各大超算中心计算资源,为能源、制造、气象、科研教育、动漫等企事业单位和科研院所提供超算云服务。

“以前超算应用以科研教育为主,主要停留在学术阶段。最近几年明显看到,海量的新能源汽车企业大量在做计算。”陈健表示,接下来几年,人工智能算力将是算力市场最大的增量,超算产业化是第二大增量。随着时间推移,算力越来越成为社会发展的动力来源,成为新的生产资本。

过去10年,陈健常被问到的一个问题是,中国建了很多超级计算机,为什么会听到一边说超级计算机空闲,一边又说缺算力?他表示,这是因为算力和应用发生了错配。

算力可以分为高端、中端和入门级,对应的分别是面向大型应用的算力、面向企业级的算力和面向常规科研的算力。超级计算机为了完成大型应用而设计,“从它诞生的第一天起就不适合去做修改,因为机器太复杂了,把它调试到稳定可靠、高质量运行有巨大成本,调试好之后不适合做大改变。”

但对于绝大多数的用户来说,并不需要整机运行解决一个任务,尤其是元宇宙和人工智能的海量应用出现后,算力需求多种多样,传统超算中心建设模式就遇到了一个巨大挑战,“超级计算机这个大设备并不是为海量应用而准备,它是为大应用而设计。如果要用这个大设备,就要让应用适应设备,挑战太大了。”

陈健表示,从经济成本上看,一个中等软件在国产超级计算机上要顺利移植,起步成本是百万级人民币,而拥有10万元人民币计算经费的普通算力用户已相当于中型用户。算力错配导致拥有10万元经费的用户只好去找不需要移植的英特尔、AMD等通用算力。

不同需求与计算能力之间,怎样的布局才是合理的?“我们也在想解决方法是什么,这就回到了应用软件的SaaS化。”陈健表示,并行超算云上有20万用户,3000个用户在用同一款软件,一个用户支付不了高额费用,就让海量用户均摊成本,不需要每个用户都移植某个软件,“用户关注应用的云化服务,不管底层用的是英特尔的处理器还是华为的鲲鹏,他们都可以使用。”

编辑/范辉

最新评论