AI时代 存力将如何演进?
第一财经 2024-01-08 14:18

在以人工智能(AI)为代表的新应用下,大算力时代拉开序幕,存力市场和技术也不断发展演进。

相比传统服务器,AI服务器除CPU外还需要搭配GPU进行多线程数据处理,每个GPU都需要搭配HBM(High Band width Memory,高带宽存储器)、GDDR等存储器,此部分为存储的纯增量市场;同时AI服务器内存和硬盘也在迭代升级,已开始搭配最先进的DDR5、LPDDR5、SSD等存储,此为存储的价值提升部分。

近期,英伟达向SK海力士和美光支付数亿美元预付款以锁定HBM产能,带动以HBM为代表的新型存储产业链爆火。事实上,HBM的爆火仅是新型存储产业发展的开始,未来,高速互联芯片、存算一体等新技术同样值得关注。

HBM成本是GDDR的3倍

在AI时代,算力就是生产力,但存力的发展步伐却并未跟上。AI芯片企业燧原科技高级总监史金涛此前在2023年6月的奎芯科技品牌开放日上表示,AI大模型背景下的内存已然成为硬件瓶颈。

“模型(性能)每两年会增加百倍,内存带宽两年最多增加两倍。”史金涛表示,芯片执行效率取决于本地内存容量和带宽,图像生成类模型对芯片内存容量要求很高,至少需要20GB或更高,容量越大越好。

DRAM是当前市场主流的内存芯片。根据应用场景不同,JEDEC固态技术协会将DRAM定义为GDDR、DDR和LPDDR三个系列。

其中,GDDR是专为需要极高吞吐量的数据密集型应用程序如图形相关、数据中心加速和AI等设计的高性能存储器。GDDR有专属的工作频率、时钟频率、电压,较常见的DDR时钟频率更高,发热量更小,常搭配高端显卡使用,目前最新的主流标准是GDDR6。

LPDDR性价比最高,多用于移动设备以及汽车等对功耗较敏感的设备,也适用于AI推理芯片。史金涛称,超高内存带宽是相关加速芯片特别是AI训练芯片的必然选择,AI推理芯片对于内存类型的选择,则更注重性价比的平衡。

“LPDDR为了强化低功耗推理能力,会进一步通过降低工作电压,优化电源管理和引入新的低功耗技术来追求更低的功耗水平。”中山大学微电子学院副院长虞志益在上述品牌开放日上表示。

据悉,LPDDR的架构和接口针对低功耗应用进行了专门优化,提供更窄的通道宽度、尺寸更小、工作电压更低和支持多种低功耗运行状态,目前最新的主流标准是LPDDR5X。

HBM是基于2.5/3D封装技术的一种新型CPU/GPU内存芯片,能够以低功耗产生高带宽,广泛搭配训练型AI服务器的GPU使用。HBM拥有超高带宽,主要缘于其将原本在PCB板上的DDR内存颗粒和GPU芯片同时集成到SiP封装中,使内存更加靠近GPU,即“近存计算”。其DDR Die采用堆叠方式,通过增加单个DDR容量和层数来实现内存容量和带宽的提高。

目前,GDDR和HBM的GPU内存的主流选择。成本方面,由于HBM采用2.5D封装,其价格也更高。燧原科技测算,HBM3的颗粒成本是LPDDR5的6倍、GDDR6的3倍。

存储的下一站:存算一体

在冯诺依曼架构下,计算和存储功能分别由XPU和存储器完成,数据从存储器中获取,处理完毕后再回到存储器,从处理单元外的存储器提取数据所需的时间往往是运算时间的成百上千倍。

由于数据需要在计算单元和存储单元频繁移动,存储墙成为算力提升的首要限制因素之一。数据显示,在过去二十年,处理器性能以每年大约55%的速度提升,内存性能的提升速度每年仅约10%。

亿铸科技创始人、董事长兼CEO熊大鹏在2023年11月举办的第三届中国临港国际半导体大会上表示,“英伟达H200和H100在算力上提升得并不多,主要是(数据)从HBM往芯片里转的带宽做得更好,导致实际有效算力能够提升60%、70%,甚至在某些情况差不多翻一倍。”

熊大鹏称,AI大模型运行过程中,数据搬运所占用的时间超过95%甚至98%,这意味着计算的核堆得再多,如果数据从外面的HBM传不进来,能提升的计算效率也只有5%、10%,而解决数据带宽的问题,不仅投资没有那么大,得到的实际计算效率也会高很多。

超高带宽内存HBM因此爆火。而随着存算技术的发展,未来存内计算、存内逻辑,即“存算一体”,有望成为AI时代的新选择。

存算一体是在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算。其中存内计算的计算操作由位于存储芯片内部的独立计算单元完成,存储和计算可以是模拟的也可以是数字的,一般用于算法固定的场景算法计算;存内逻辑通过在内部存储中添加计算逻辑,直接在内部存储执行数据计算,这种架构数据传输路径最短,同时能满足大模型的计算精度要求。

存算一体的技术优势在于可直接利用存储器进行数据处理或计算,把数据存储与计算融合在同一个芯片的同一片区之中,彻底消除冯诺依曼计算架构瓶颈,适用于深度学习神经网络这种大数据量大规模并行的应用场景。目前,国产存算一体芯片企业包括千芯科技、智芯微、亿铸科技、后摩时代、苹芯科技等。

启明创投合伙人叶冠泰此前在接受第一财经专访时表示,“存算一体还是比较新的技术,它在算力和节能方面可以有非常大的提升。智能驾驶领域对耗电量比较敏感,是存算一体非常好的应用场景。”

CXL打开存储更多可能性

存储器搭配高速互联芯片也是减少存储墙限制的有效方式。在高性能服务器强增长的趋势下,内存接口芯片、PCIe接口芯片(高速互联芯片的两种)作为核心数据传输环节,也在不断迭代升级。

内存接口芯片是服务器内存模组的核心逻辑器件,其连接CPU和DRAM,集成在内存模组内,能够提升内存数据访问的速度及稳定性。国内澜起科技(688008.SH)是DDR5接口芯片的全球龙头之一。

PCIe是一种高速串行计算机扩展总线标准,可实现高速串行点对点双通道高带宽传输。PCIe产业链主要以IP(DPU、GPU)接口、PCIe Retimer/Redriver、PCIe Switch形态存在,以及各种PCIe Bridge(比如NVME控制器)。

2019年,下一代芯片互联的标准CXL(Compute Express Link)诞生,主要解决服务器内部芯片间高速互联问题。能够使CPU内存空间和连接设备上的内存之间保持一致性,进而突破 CPU内存极限。

“传统的PCIe相当于高速公路,在上面走的是小轿车。随着PCIe标准逐渐升级迭代,路的通道从两车道到四车道到八车道。然而GPU算力越来越高,小车相当于变成了大卡车。为了更快地运输,CXL相当于在通道上铺了国际标准的铁轨,专门跑高铁(GPU、内存和其他高速芯片)。高铁越来越多,就需要引入红绿灯机制(Switch),防止相撞。如果红绿灯算法拥有城市大脑能力,交换效率就会很高。”国数集联创始人兼首席执行官巍骛此前告诉第一财经。

招商证券表示,CXL本质特点是确保直接挂载的CPU存储器与CXL设备上的存储器保持一致,使主机和CXL设备之间可以无缝读取相同的数据;允许通过CXL接口将各种类型(例如易失性、持久性等)的存储器挂载到主机,这与底层存储器技术无关;支持交换和内存池,交换功能可实现存储器扩展,池化功能允许动态分配和释放存储器资源,从而提高整体系统效率。

招商证券认为,CXL可以作为HBM的补充,未来CXL将越来越多搭配HBM使用。

编辑/范辉

最新评论