北京青年报

大模型“攻坚战”腾讯再押注开源这次用到合成数据了

第一财经 2024-11-10 19:47

今年5月腾讯开源原生中文DiT文生图模型Hunyuan-DiT，随后开源了多个文生文模型，记者了解到，腾讯近日又开源了MoE（专家）大语言模型Hunyuan-Large和混元3D生成大模型 Hunyuan3D-1.0。其中Hunyuan-Large参数量3890亿，是开源领域最大的MoE模型，Hunyuan3D-1.0则是业界首个同时支持文字、图像生成3D的开源大模型。

“去年大模型如火如荼，开源也百花齐放，而今天看来还是各归各位。大模型我们没有着急开源，开源是自然而然的结果，闭源做得比较好后就做了开源。”腾讯混元大语言模型算法负责人康战辉告诉记者。

而就布局图像生成3D大模型，腾讯混元3D模型负责人郭春超则表示，腾讯在动漫、游戏、影视这种偏娱乐类的都离不开3D资产，3D资产可应用的场景包括虚拟或增强显示头显，在互动娱乐场景如游戏和虚拟社交领域有颇大市场，开源的原因则包括3D生成处于前半程发展阶段，需要社区一起努力。

随着大模型厂商各自选择了开闭源路径，此前关于开源和闭源哪条路径更好的争论已逐渐平息。业界不再只比拼厂商开源模型的数量和参数规模，而更聚焦于模型本身的能力和技术创新。

不论是开源还是闭源模型，当前都面临算力和数据限制下能力提升的挑战，哪家厂商能更快突破大模型能力瓶颈，就能在竞争中更好地卡位。“大模型有三个重要要素算力、显存、通讯，现在模型已经很大，长文需求越来越多，其实不光卡算力，还卡显存和通讯，大模型愈加变成一个系统工程。”康战辉向记者形容。

此外，大模型要变大，还需应对训练过程中自然数据耗尽等问题，并在一定的算力和数据量条件下通过算法优化提升大模型能力。OpenAI 9月发布的o1系列从算法本身提出了一条偏重推理、采用长思维链的路径，业界近期对此路径颇为关注。

“目前Scaling Law（缩放定律）没有失效，可能是从训练转到推理，训练这块要放缓。OpenAI可能碰到了某个‘点’，也在转（向）。从架构上看，tramsformer架构存在复杂度，若输入适应扩展，算力呈平方型，算力需求变得不可想象，新架构肯定会出现变化，算法本身将会有突破。”康战辉表示。他认为，现在大家看到实现好的智能体比以前近了很多，至少上下文理解能力有所提升，且慢思考也取得了突破，其背后，o1带来一种复杂长思维链思考的能力，使推理能力更深入，混元也在探索。

据介绍，此次开源的Hunyuan-Large在架构上还另有一些创新。例如该模型采用了MoE架构并做了技术优化。一般而言，相同训练推理成本下，MoE效果好于Dense（稠密）模型，目前业界做MoE的厂商还不多，原因包括MoE架构复杂、训练稳定性差、较难收敛等，厂商需投入大量成本研发。

此外，Hunyuan-Large使用了一些合成数据训练，但未透露使用的比例。合成数据被认为有可能解决训练数据耗尽的问题，但关于能否用、如何用，业界仍有一定争议。今年早些时候，《自然》上一篇论文提出，用合成数据有可能导致模型崩溃。除混元外，支持使用合成数据的厂商则包括英伟达、Anthropic等。

康战辉告诉记者，使用合成数据的效果如何要看怎么使用、配比如何。类比来看，人类的数据也可认为是由大脑合成的，使用合成数据最重要的是要有一套链路来保障质量可控。客观而言，自然界没有或缺少的数据更需要合成，如数学就需要合成解题过程。混元利用混元内部系列大模型构建合成数据并筛选，再喂给大模型，合成数据更多是对专业数据和自然数据不足情况的补充。

“今年年初开始，模型越来越大，我们发现数据不够了。自然数据增长速度跟不上模型对数据的需求，有一种说法是到2026年自然数据会被‘吃完’。” 康战辉表示，未来大模型合成数据的比例将越来越高。

编辑/范辉

打开北京青年报APP阅读原文