北京青年报

腾讯发布星脉网络2.0 让AI大模型训练效率提升20%

北京青年报客户端 2024-07-01 16:19

7月1日，腾讯宣布其自研星脉高性能计算网络全面升级，升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡，支持超10万卡大规模组网，网络通信效率比上一代提升60%，让大模型训练效率提升20%。

AI大模型就像是一场F1比赛，腾讯云专门设计了星脉高性能算力网络“赛道”，并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”，共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最大的算力性能，助力客户在AI大模型的竞争中遥遥领先。

使用该网络，如果原来训练中某个计算结果的同步需要花100秒完成，现在只需要40秒；原来需要花50天训练的模型，只需要花40天。

为何可以提升效率？腾讯自研星脉网络是一套软硬协同的高性能网络体系，包括自研网络设备、通信协议、通信库以及运营系统四大关键组件，每个组件均采用了业界首创的腾讯核心技术。

硬件方面，腾讯星脉网络是业界首个采用全自研网络设备的高性能网络，包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T，同时在业界率先引入400G硅光模块，速率翻倍，让网络延迟降低40%，支持超10万卡大规模组网。

值得注意的是，星脉网络2.0支持搭载腾讯自研的全新算力网卡，这是公共云业内首款为AI训练设计的网卡，网卡采用最新一代 FPGA 芯片，整卡带宽可达400Gbps，具备业界最高的3.2T整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议TiTa，并搭载了腾讯独有的主动拥塞控制算法。这让混合专家(MoE)模型训练下网络通信性能相比1.0提升30%，带来训练效率10%的提升。

运营系统2.0新增腾讯独家技术灵境仿真平台，从原来仅能定位网络问题，到可定位GPU节点问题，实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控，可以更快发现与定位网络问题，让整体故障的排查时间再次大幅缩短，故障时尽快恢复续训。

据介绍，目前，腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。

文/北京青年报记者温婧
编辑/田野