北京青年报

算力性能提升3倍腾讯云发布大模型计算集群

北京青年报客户端 2023-04-14 14:48

4月14日，腾讯云正式发布新一代高性能计算集群。该集群采用腾讯自研的星星海服务器，数据显示，腾讯云新一代集群的算力性能较前代提升高达3倍。未来，新一代集群不仅能服务于大模型训练，还将在自动驾驶、科学计算、自然语言处理等场景中应用。

算力是数字经济时代的重要基础设施和关键技术。单体服务器算力有限，需要将大量服务器通过高性能网络相连，打造成大规模算力集群。通过对处理器、网络架构和存储性能的全面优化，腾讯云攻克了大集群场景下的算力损耗问题，为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。

去年10月，腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下，将训练时间由50天缩短到11天。如果基于本次发布的新一代集群，训练时间将进一步缩短至4天。

腾讯自研的星脉网络，为新一代集群带来了业界最高的3.2T的超高通信带宽，将集群整体算力提升20%，让超大算力集群仍然能保持优秀的通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模，支持更大规模的大模型训练及推理。

实际上，几千台计算节点同时读取一批数据集，需要尽可能缩短加载时长。腾讯云自研的文件存储、对象存储架构，具备TB级吞吐能力和千万级每秒读写次数，充分满足大模型训练的大数据量存储要求。

目前，腾讯云的分布式云原生调度总规模超过1.5亿核，并提供16 EFLOPS（每秒1600亿亿次浮点运算）的智算算力。在腾讯云上，企业可基于TI 平台的大模型能力和工具箱，可结合产业场景数据进行精调训练，提升生产效率，快速创建和部署 AI 应用。未来，新一代集群不仅能服务于大模型训练，还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。

文/北京青年报记者温婧
编辑/田野