算力性能提升3倍 腾讯云发布大模型计算集群
北京青年报客户端
2023-04-14 14:48
4月14日,腾讯云正式发布新一代高性能计算集群。该集群采用腾讯自研的星星海服务器,数据显示,腾讯云新一代集群的算力性能较前代提升高达3倍。未来,新一代集群不仅能服务于大模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中应用。
算力是数字经济时代的重要基础设施和关键技术。单体服务器算力有限,需要将大量服务器通过高性能网络相连,打造成大规模算力集群。通过对处理器、网络架构和存储性能的全面优化,腾讯云攻克了大集群场景下的算力损耗问题,为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。
去年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于本次发布的新一代集群,训练时间将进一步缩短至4天。
腾讯自研的星脉网络,为新一代集群带来了业界最高的3.2T的超高通信带宽,将集群整体算力提升20%,让超大算力集群仍然能保持优秀的通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模,支持更大规模的大模型训练及推理。
实际上,几千台计算节点同时读取一批数据集,需要尽可能缩短加载时长。腾讯云自研的文件存储、对象存储架构,具备TB级吞吐能力和千万级每秒读写次数,充分满足大模型训练的大数据量存储要求。
目前,腾讯云的分布式云原生调度总规模超过1.5亿核,并提供16 EFLOPS(每秒1600亿亿次浮点运算)的智算算力。在腾讯云上,企业可基于TI 平台的大模型能力和工具箱,可结合产业场景数据进行精调训练,提升生产效率,快速创建和部署 AI 应用。未来,新一代集群不仅能服务于大模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。
文/北京青年报记者 温婧
编辑/田野
相关阅读
涵盖超级计算、大模型、6G等前沿技术领域 20个项目获颁“2024年世界互联网大会领先科技奖”
北京青年报客户端 2024-11-20
大湾区规模最大智算集群年底将在福田建成 有望打造AI“超级孵化器”
广州日报 2024-11-19
AI大模型“下矿山”,国产算力成为场景落地重要引擎
第一财经 2024-11-06
AI大模型“下矿山” 国产算力成为场景落地重要引擎
第一财经 2024-11-06
大模型持续火热 算力产业景气度上行
中国证券报 2024-07-29
腾讯发布星脉网络2.0 让AI大模型训练效率提升20%
北京青年报客户端 2024-07-01
联想发布全栈算力基础设施新品 为深度学习、元宇宙、生成式AI等场景打造
北京青年报客户端 2024-06-15
腾讯文生文模型将开源 下一代视频模型时长将超30秒
第一财经 2024-05-21
最新评论