腾讯发布星脉网络2.0 让AI大模型训练效率提升20%
北京青年报客户端 2024-07-01 16:19

7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。

AI大模型就像是一场F1比赛,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”,共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最大的算力性能,助力客户在AI大模型的竞争中遥遥领先。

使用该网络,如果原来训练中某个计算结果的同步需要花100秒完成,现在只需要40秒;原来需要花50天训练的模型,只需要花40天。

为何可以提升效率?腾讯自研星脉网络是一套软硬协同的高性能网络体系,包括自研网络设备、通信协议、通信库以及运营系统四大关键组件,每个组件均采用了业界首创的腾讯核心技术。

硬件方面,腾讯星脉网络是业界首个采用全自研网络设备的高性能网络,包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T,同时在业界率先引入400G硅光模块,速率翻倍,让网络延迟降低40%,支持超10万卡大规模组网。

值得注意的是,星脉网络2.0支持搭载腾讯自研的全新算力网卡,这是公共云业内首款为AI训练设计的网卡,网卡采用最新一代 FPGA 芯片,整卡带宽可达400Gbps,具备业界最高的3.2T整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议TiTa,并搭载了腾讯独有的主动拥塞控制算法。这让混合专家(MoE)模型训练下网络通信性能相比1.0提升30%,带来训练效率10%的提升。

运营系统2.0新增腾讯独家技术灵境仿真平台,从原来仅能定位网络问题,到可定位GPU节点问题,实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控,可以更快发现与定位网络问题,让整体故障的排查时间再次大幅缩短,故障时尽快恢复续训。

据介绍,目前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。

文/北京青年报记者 温婧
编辑/田野

最新评论