北京青年报

火山引擎抢滩AI风口大模型训练云平台胜算几何？

证券日报 2023-04-20 10:07

AI大模型应用爆发，云市场也在加速变革。

4月18日，火山引擎发布自研DPU等系列云产品，并推出新版机器学习平台。发布会后，火山引擎总裁谭待、字节跳动副总裁杨震原接受了《证券日报》记者采访。

面对当下白热化的大模型之争，谭待表示，“火山引擎不做大模型，要先服务好做大模型的公司。国内大模型领域的数十家企业，超过七成已经在火山引擎云上。”

在谭待看来，大模型不会一家独大。与其他云厂商力推自家大模型不同的是，火山引擎将接入多家大模型深度合作，为企业和消费者提供更丰富的AI应用。

“并池”复用资源

让大模型训练快速跑起来

今年以来，ChatGPT在全球掀起AI热潮，底层大模型相继涌现。据民生证券统计，目前国内已有超30个大模型亮相，其中包括阿里巴巴、百度、京东等互联网大厂和光年之外、百川智能等备受瞩目的初创企业。

业内有声音认为，大模型将成为云厂商弯道超车的机会。对此，谭待表示，大模型还在发展初期，面临数据安全、内容安全、隐私保护、版权保护等许多需要努力解决的问题。但可以预见，大模型将带动云上AI算力急剧增长，AI算力的工作负载与通用算力的差距会越来越小，这会为各家云厂商带来新的机会，同时也会给数据中心、软硬件栈、PaaS平台带来新的挑战。

以数据中心的算力结构为例，谭待表示：“大模型需要大算力，虚拟化会带来资源损耗，规模越大就损耗越多。未来3年内，大规模的算力中心，都将形成‘CPU+GPU+DPU’的混合算力结构，CPU负责通用计算，GPU负责AI计算，DPU负责资源卸载、加速和隔离，提升资源效率。”

谭待告诉记者，火山引擎要做的就是为大模型客户提供高稳定性和高性价比的AI基础设施，火山引擎机器学习平台一方面可以提供算力供给，另一方面，也能帮助大模型客户用好算力提升效率。

据悉，火山引擎宣布与字节跳动国内业务并池。杨震原告诉记者，所谓并池的池，可以理解为计算池，包括计算、存储、服务器、容器等单元，并池意味着在共享的资源池里调度资源，从而提高整体资源利用率。

火山引擎机器学习平台经过抖音等海量用户业务长期打磨，支持单任务万卡级别的超大规模分布式并行训练场景。GPU弹性计算实例可灵活调度资源，随用随取，最高可以为客户节省70%的算力成本。

谭待表示，火山机器学习平台的优势之一就在于“内外同款”，例如通过内部抖音大规模的训练场景进行打磨，通过实战积累经验。因此，基于内外统一的云原生基础架构，抖音等业务的空闲计算资源可极速调度给火山引擎客户使用，离线业务资源分钟级调度10万核CPU，在线业务资源也可潮汐复用，弹性计算抢占式实例的价格最高可优惠80%以上。

向“多云多模型”架构演进

价格战不可持续

4月17日，火山引擎还发布了新一代自研DPU，实现计算、存储、网络的全组件卸载，释放更多资源给业务负载。据悉，该DPU网络性能高达5000万pps转发能力、延迟低至20us。基于自研DPU的各类计算实例性能也有显著提升，例如适用于大模型分布式并行训练场景的GPU实例，相较上一代实例集群性能最高提升3倍以上。

自动驾驶公司毫末智行与火山引擎合作打造智算中心，为DriveGPT自动驾驶生成式预训练模型提供强大的算力支持。毫末智行CEO顾维灏介绍，DriveGPT使用量产车4000万公里的人驾数据训练，参数规模达1200亿，对自动驾驶认知决策模型进行持续优化。

谭待表示，在大模型及下游应用发展推动下，无论传统企业还是初创企业，对AI算力都有迫切需求，企业使用多家云服务将成为常态。同时，各行业有自己高质量的私有语料，大模型不会一家独大，而是会在千行百业生长，形成多模型共生甚至协作的生态。“未来将是‘多云多模型’的时代。”谭待称。

火山引擎也顺势推出了分布式云原生平台、多云安全、多云CDN、veStack混合云平台等系列产品。谭待表示，火山引擎slogan是“云上增长新动力”，产品理念是围绕云上增长三个核心要素，即敏捷迭代、数据驱动、体验创新。

值得一提的是，今年以来，随着云平台竞争激烈，大厂之间比拼加剧，价格战也随即打响，4月份，有大厂宣布相关产品降价40%。便宜、廉价，能否成为行业主流趋势？

谭待表示，要从两方面看待这一问题：一方面，成本是云计算的关键竞争力，因此成本控制需要久久为功；另一方面，要加强技术积累，价格战不可持续。

事实上，作为字节跳动ToB业务的重要板块，火山引擎过去两年的ROI（投资回报率）并不高，对此谭待认为，“企业服务中，ToB服务与ToC服务大相径庭，ToB服务需要经过漫长的实践，积累起来后才会有很强的连续性。因此对于火山引擎而言，短期考虑的是如何为客户创造更多的价值，中期任务是将组织能力做好，长期要回归商业本质，成为一个盈利的业务。”

编辑/范辉