北京青年报

火山引擎发布大模型训练云平台：支持万卡训练，集群性能提升3倍

北京青年报客户端 2023-04-18 13:08

4月18日，火山引擎在其举办的“原动力大会”上发布自研DPU等系列云产品，并推出新版机器学习平台：支持万卡级大模型训练、微秒级延迟网络，让大模型训练更稳更快。“国内有数十家做大模型的企业，大多已经在火山引擎云上”，火山引擎总裁谭待认为，大模型不会一家独大。与其他云厂商力推自家大模型不同的是，火山引擎将接入多家大模型深度合作，为企业和消费者提供更丰富的AI应用。

让大模型训练快速跑起来

自2022年底发布以来，ChatGPT成为人类历史上最快获得上亿用户的消费级互联网应用。最新的GPT-4大模型，更是在法律、数学、生物学等多项测试中超过90%人类。

谭待表示，国内很多科技公司投入到大模型建设中，他们有优秀的技术团队，也有丰富的行业知识和创新想法，但往往缺乏经过大规模场景实践的系统工程能力。火山引擎要做的就是为大模型客户提供高稳定性和高性价比的AI基础设施。

据悉，火山引擎机器学习平台经过抖音等海量用户业务长期打磨，支持单任务万卡级别的超大规模分布式并行训练场景。GPU弹性计算实例可灵活调度资源，随用随取，最高可以为客户节省70%的算力成本。

字节跳动副总裁杨震原认为，业务创新需要试错，试错要大胆、敏捷，但试错也一定要控制成本。通过潮汐、混部等方式，火山引擎实现资源的高利用率和极低成本。以抖音推荐系统为例，工程师用15个月的样本训练某个模型，5小时就能完成训练，成本只有5000元。火爆全网的抖音“AI绘画”特效，从启动到上线只用一周多时间，模型由一名算法工程师完成训练。

谭待透露，火山引擎的大模型云平台获得智谱AI、昆仑万维等众多企业的良好反馈。国内大模型领域，七成以上已是火山引擎客户。

向“多云多模型”架构演进

有评论称，大模型将成为云厂商弯道超车的机会。谭待对此表示，大模型还在发展初期，面临数据安全、内容安全、隐私保护、版权保护等许多问题需要努力解决。但可以预见，大模型将带动云上AI算力急剧增长，AI算力的工作负载与通用算力的差距会越来越小，这会为各家云厂商带来新的机会，同时也会对数据中心、软硬件栈、PaaS平台带来新的挑战。

以数据中心的算力结构为例，谭待表示：“大模型需要大算力，虚拟化会带来资源损耗，规模越大就损耗越多。未来3年内，大规模的算力中心，都将形成‘CPU+GPU+DPU’的混合算力结构，CPU负责通用计算，GPU负责AI计算，DPU负责资源卸载、加速和隔离，提升资源效率”。

此次原动力大会上，火山引擎发布了新一代自研DPU，实现计算、存储、网络的全组件卸载，释放更多资源给业务负载。火山引擎尽管是“最年轻”的云厂商，其自研DPU已达到业界领先水平，网络性能高达5000万pps转发能力、延迟低至20us。基于自研DPU的各类计算实例性能也有显著提升，例如适用于大模型分布式并行训练场景的GPU实例，相较上一代实例集群性能最高提升3倍以上。

自动驾驶公司毫末智行与火山引擎合作打造智算中心，为DriveGPT自动驾驶生成式预训练模型提供强大的算力支持。毫末智行CEO顾维灏介绍，DriveGPT使用量产车4000万公里的人驾数据训练，参数规模达1200亿，对自动驾驶认知决策模型进行持续优化。

谭待表示，在大模型及下游应用发展推动下，无论传统企业还是初创企业，对AI算力都有迫切需求，企业使用多家云服务将成为常态。同时，各行业有自己高质量的私有语料，大模型不会一家独大，而是会在千行百业生长，形成多模型共生甚至协作的生态。

支持“多云多模型”的未来架构

火山引擎也推出了分布式云原生平台、多云安全、多云CDN、veStack混合云平台等系列产品，支持客户更好地使用多家云服务。“字节跳动用过全球几乎每一朵公有云，以及大多数CDN，形成一套完整的分布式云管理体系和架构实践”，谭待坚信火山引擎是最懂多云和分布式云的云服务商，这些技术能力都会毫无保留地提供给客户。

杨震原进一步表示，火山引擎对内对外提供统一的产品，抖音、今日头条等APP开屏都加上了“火山引擎提供计算服务”。

杨震原说：“数字化时代，机器学习可以智能、高效地围绕目标解决问题。数字化的下一步是智能化，我们在机器学习方面的技术积累和经验，都会通过火山引擎提供给外部客户，帮助更多企业做好智能化”。

文/北京青年报记者温婧
编辑/田野