百度智能云联合度小满推出《智算中心网络架构白皮书》
北京青年报客户端
2023-09-08 11:10
9月5日,在百度云智大会上,百度智能云联合度小满推出《智算中心网络架构白皮书》。白皮书由百度智能云和度小满负责高性能网络落地的一线专家撰写,内容覆盖了高性能网络建设的各个方面,包括不同规模集群的架构选择、云平台上的可视化运维工具建设、多租户的运营方案设计等,为同业提供全流程指导,让复杂的高性能网络建设变得简单。
大模型需要大算力,如何建设高性能网络是其中最为关键的一步。度小满今年5月正式开源了国内首个千亿参数金融大模型——“轩辕”。在金融场景中的任务评测中,轩辕全面超越了市场上的主流开源大模型,赢得了150次回答中63.33%的胜率。随着大模型的迅猛发展,模型对于底层算力的需求呈指数性增长,智能算力规模的持续扩大带来的是GPU算力部署规模日益膨胀,对于高性能网络的要求也日益增多。
随着度小满模型参数规模超过千亿,为满足不断增加的算力需求、度小满私有云模式的智算中心也在不断升级,低时延、大带宽、稳定性运行、可运维性高的大规模智算网络正是智算中心搭建的重要基石。在建设私有云模式的智算中心的过程中,度小满联合百度智能云,构建了一套私有云智算网络,在支撑万卡GPU规模的同时,相较于业内常见的Dragonfly、Tours网络拓扑,网络带宽更充足,节点间跳步数更稳定性,网络延时指标缩短到3微秒以内,具备端到端的可观测性能力与故障自愈能力,无阻塞、低时延、高可靠的网络设计有效支撑了上层智算应用的快速迭代和发展,为“轩辕”大模型的训练提供了稳定的网络保障。
目前,度小满智算网络中心已建设成为国内金融行业首批私有云模式下的万卡规模智算中心,为“轩辕”大模型的训练提供了稳定的网络保障。
文/金仁甫
编辑/范辉
最新评论