竞争对手环伺,谁在抢英伟达的GPU生意?
第一财经 2024-07-10 17:50

英伟达市值在高位起伏时,业界越来越多关注到GPU(图形处理器)之外的AI芯片。

近期AI芯片两个备受瞩目的融资消息均与ASIC芯片(专用集成电路)有关。有消息称,AI芯片初创公司Groq在新一轮融资中估值将达25亿美元,另一家初创公司Etched则完成1.2亿美元融资,两家做的都是ASIC。GPU巨头英伟达似乎也在考虑市场竞争影响,今年年初,英伟达传出考虑布局ASIC的消息。

相对而言,GPU更加通用且软件生态更完善,可以运行各种算法,ASIC通用性较弱但硬件性能可能更强,可能只能运行一部分算法。除了AI初创公司和云厂商避开英伟达锋芒发力ASIC,记者还了解到,算力厂商也在考虑使用适用于边缘计算的FPGA(现场可编程门阵列)芯片。算力需求方正在寻找更多样的AI芯片方案。

外界将这些AI芯片企业视为英伟达的竞争对手,那么,这些AI芯片能多大程度挤占英伟达的GPU市场?

台面上下的ASIC生意

备受瞩目的ASIC初创企业融资以及低调的云巨头布局,台面上下,ASIC都在向GPU发起攻势。

近日传出融资消息的两家初创公司中,由谷歌TPU(张量处理单元)发明者之一Jonathan Ross创立的Groq,于今年2月推出ASIC芯片LPU(语言处理器),宣称该LPU推理性能是英伟达GPU的10倍,成本仅为其十分之一。Etched则于6月推出Sohu芯片,将Transformer(主流大语言模型基于的架构)优化固定在芯片上,声称一台集成8块Sohu的服务器性能匹敌160个H100 GPU。

不少云巨头自研的也是ASIC芯片,包括谷歌、微软、Meta等,其中谷歌自用的ASIC出货量已不少。据市场研究机构TechInsights最新数据,2023年数据中心加速器厂商中,谷歌TPU出货量达200万台,英伟达为380万台,其他芯片为50万台。2023年,谷歌已是第三大数据中心处理器设计商,2023年第四季度,英伟达在数据中心处理器市场的份额超50%,谷歌市占率排第三,市占率已接近第二名的英特尔。

一些AI定制芯片厂商因此成为隐形赢家。谷歌与博通合作开发TPU。2024财年第一季度,博通收入119.61亿美元,同比增长34%。博通CEO Hock Tan称,第二季度,博通来自AI产品的收入达创纪录的31亿美元,人工智能需求是提振业绩的一大因素。

今年年初至当地时间7月8日,博通市值上涨了超2000亿美元。另一家主要AI定制芯片厂商Marvell在截至5月4日的2025财年第一财季中,AI定制芯片业务显著增长,推动其数据中心业务收入增长87%。

“GPU本质是一种大规模并行处理器,可同时执行多任务,ASIC则是为高效执行特定小范围功能而设计。如果有一个在特定范围内执行的任务能通过ASIC实现,这种方式可能更高效且更便宜。如果应用程序需要执行多任务且这些任务会改变范围,GPU可能是更好的选择。” 就GPU和ASIC适用场景的区别,TechInsights数据中心和云频道研究总监Dr Owen Rogers告诉第一财经记者。

从原理上讲,Etched此前曾表示,CPU和GPU作为通用芯片需适配不同AI架构,因此大部分计算能力不用于AI相关计算,估计H100仅3.3%的晶体管用于矩阵乘法,非通用芯片少了相关顾虑,Sohu还通过减少存储器空间等方式将更多空间用于计算。Groq也专门设计用于处理大语言模型任务,并结合近存计算技术提升算力表现,在14nm的制程下,Groq大模型生成速度达到近500token/秒,超过GPU驱动的GPT-3.5的40token/秒。

如果能在AI场景使用性能更好的硬件,意味着完成同样计算所需能耗可以更低。此外,英伟达在截至4月28日的2025财年第一财季录得高达78.4%的毛利率,对定价权的掌握不言而喻,算力需求方若能自研或外购ASIC芯片,或能把AI芯片硬件价格也打下来。

虽然大模型要从成熟的GPU生态迁移到ASIC生态需要成本,且后者软件生态没有GPU成熟,但业界已在考虑用ASIC替代一部分GPU算力。除了谷歌等云厂商也将ASIC芯片用于大模型训练,市场分析主要认为ASIC可在模型推理场景替代GPU。

“企业需要证明支出与回报的合理性,企业将无法‘奢侈’地使用昂贵的GPU来满足所有AI需求。企业仍会用GPU,因为GPU仍需要用在大量并行化的通用用例中,但对于其他需求,在合适环境下运行的ASIC将会是更好的选择,因为ASIC购买成本更低,将会有更多ASIC设计来满足特定的需求。”Owen Rogers判断,模型训练仍将在GPU上进行,因为GPU对不同模型更加灵活,推理则可能越来越多使用低功耗的ASIC。

麦肯锡3月发布的报告也表示,目前主流高性能新一代AI服务器采用2个CPU和8个GPU的组合,推理工作负载运行在与训练相似的基础设施上。而随着未来AI工作量主要转向推理,工作负载将主要由专用硬件承担。到2030年,配备ASIC芯片的AI加速器将处理大多数AI工作负载,因为ASIC在特定AI任务中表现更佳。

GPU潜在对手还有谁

ASIC之外,其他芯片架构也试图进场。FPGA此前便因较好的硬件灵活性和时延表现、较低功耗,被认为适合边缘端计算,主要的两家FPGA公司是AMD持股的赛灵思和英特尔旗下的Altera,目前FPGA已呈现出向大模型领域渗透之势。国内,无问芯穹、清华大学和上海交通大学1月联合提出一种面向FPGA的大模型轻量化部署流程FlightLLM,首次在单块赛灵思U280 FPGA上实现LLaMA2-7B 高效推理。

“不跑大模型的时候,GPU和FPGA的使用成本差距还没有太大,跑大模型后差距越来越大了,因为模型参数量更大,所需芯片卡数指数式增加。“一名算力芯片技术人员告诉记者,一张FPGA使用时功耗大约几十瓦,而GPU待机功耗便达几十瓦、推理时功耗可达300多瓦,这意味着FPGA一体机相比GPU使用成本更低。

该技术人员表示,相比GPU可用于训练和推理,FPGA相对更适用于大模型边缘端推理,预计未来在推理场景对GPU形成一定替代。其所在的算力平台公司已在适配FPGA,但还未正式推出商用产品。不过,该技术人员表示,使用FPGA也有弊端,该芯片定制化,开发难度高,需要重新编程,前期需要跑通一些大模型后才会逐步缩短迭代周期。现在很多行业客户对非GPU的算力方案感兴趣,前来咨询的很多,但真正能用起来的还不算多。

另一些创新形态的芯片也对大模型市场虎视眈眈。今年6月,有消息称AI芯片公司Cerebras已向证券监管机构秘密提交IPO文件。与一些普通的高制程芯片越做越小相反,Celebras的思路是在采用高制程的同时将芯片做大。Cerebras2019年曾推出由一整片晶圆制成的“世界最大芯片”晶圆级芯片WSE,46225mm²面积上集成40万个AI核心和1.2万亿颗晶体管,今年3月推出的第三代晶圆级芯片WSE-3内核数量则为英伟达H100的52倍。

Owen Rogers告诉记者,Cerebras所有组件都在单个晶圆上,可以最大限度减少多核和内存间的距离,减少延迟并增加带宽,对于需大量并行运算和大内存的AI工作负载而言,能显著提升性能并降低功耗。Cerebras的关键特点来自芯片设计方法,但除了设计、运输和销售硬件,Cerebras还需调整现有开源框架适应其系统,减少新客户移植现有模型时的困难。

从共性看,不论是Cerebras、Etched还是一些FPGA芯片,芯片走向更专用化或定制化都有利于大模型在芯片上更高效运行,但由此也面临一些开发或适配上的挑战。什么样的新芯片可以闯出一条新的生路,结局尚未可知。做Transformer芯片的Etched联合创始人兼CEO Gavin Uberti便曾表示,公司在下赌注,如果Tansformer不再被采用,公司就会失败,如果Transformer继续被采用,公司可能会成为有史以来最大的公司。

面对更专用的芯片的挑战,GPU也并非一成不变,记者了解到,颠覆自身通用性、走向专用化也是一条可能的道路。一些新技术也有望用于克服GPU的局限,应对来自其他芯片的挑战。

一名资深芯片业内人士告诉记者,英伟达此前已在推动芯片走向专用化,以提升性能和功耗表现,现在用于AI运算的GPU加入了Tensor Core(张量处理单元)这样的结构,或许未来这种结构会更多。千芯科技董事长陈巍向记者表示,猜测未来可能会出现针对大模型应用的专用GPU,牺牲一部分原来对显示的支持能力,从而支持更大矩阵计算。此外,GPU也在采用各种技术改良自身,如采用更先进的封装和集成技术来减少互联功耗损失、采用存算一体技术以提升能效比等。

至于业界未来会走向更适合大模型的其他AI芯片,还是仍会在GPU的基础上改良,陈巍告诉记者,目前两方力量在博弈,一方面,大家对新结构和更强大的算力有需求,另一方面,英伟达已有完善的CUDA生态,新旧力量正在此消彼长。

Owen Rogers告诉记者,除了ASIC和GPU,未来还可能出现新的SoC(系统级芯片)设计,聚合不同类型的处理器、内存和互联技术,以满足不同场景对不同芯片的需求,企业将根据自身需求选择最合适的AI芯片。

编辑/樊宏伟

最新评论