大模型“攻坚战”腾讯再押注开源 这次用到合成数据了
第一财经 2024-11-10 19:47

今年5月腾讯开源原生中文DiT文生图模型Hunyuan-DiT,随后开源了多个文生文模型,记者了解到,腾讯近日又开源了MoE(专家)大语言模型Hunyuan-Large和混元3D生成大模型 Hunyuan3D-1.0。其中Hunyuan-Large参数量3890亿,是开源领域最大的MoE模型,Hunyuan3D-1.0则是业界首个同时支持文字、图像生成3D的开源大模型。

“去年大模型如火如荼,开源也百花齐放,而今天看来还是各归各位。大模型我们没有着急开源,开源是自然而然的结果,闭源做得比较好后就做了开源。”腾讯混元大语言模型算法负责人康战辉告诉记者。

而就布局图像生成3D大模型,腾讯混元3D模型负责人郭春超则表示,腾讯在动漫、游戏、影视这种偏娱乐类的都离不开3D资产,3D资产可应用的场景包括虚拟或增强显示头显,在互动娱乐场景如游戏和虚拟社交领域有颇大市场,开源的原因则包括3D生成处于前半程发展阶段,需要社区一起努力。

随着大模型厂商各自选择了开闭源路径,此前关于开源和闭源哪条路径更好的争论已逐渐平息。业界不再只比拼厂商开源模型的数量和参数规模,而更聚焦于模型本身的能力和技术创新。

不论是开源还是闭源模型,当前都面临算力和数据限制下能力提升的挑战,哪家厂商能更快突破大模型能力瓶颈,就能在竞争中更好地卡位。“大模型有三个重要要素算力、显存、通讯,现在模型已经很大,长文需求越来越多,其实不光卡算力,还卡显存和通讯,大模型愈加变成一个系统工程。”康战辉向记者形容。

此外,大模型要变大,还需应对训练过程中自然数据耗尽等问题,并在一定的算力和数据量条件下通过算法优化提升大模型能力。OpenAI 9月发布的o1系列从算法本身提出了一条偏重推理、采用长思维链的路径,业界近期对此路径颇为关注。

“目前Scaling Law(缩放定律)没有失效,可能是从训练转到推理,训练这块要放缓。OpenAI可能碰到了某个‘点’,也在转(向)。从架构上看,tramsformer架构存在复杂度,若输入适应扩展,算力呈平方型,算力需求变得不可想象,新架构肯定会出现变化,算法本身将会有突破。”康战辉表示。他认为,现在大家看到实现好的智能体比以前近了很多,至少上下文理解能力有所提升,且慢思考也取得了突破,其背后,o1带来一种复杂长思维链思考的能力,使推理能力更深入,混元也在探索。

据介绍,此次开源的Hunyuan-Large在架构上还另有一些创新。例如该模型采用了MoE架构并做了技术优化。一般而言,相同训练推理成本下,MoE效果好于Dense(稠密)模型,目前业界做MoE的厂商还不多,原因包括MoE架构复杂、训练稳定性差、较难收敛等,厂商需投入大量成本研发。

此外,Hunyuan-Large使用了一些合成数据训练,但未透露使用的比例。合成数据被认为有可能解决训练数据耗尽的问题,但关于能否用、如何用,业界仍有一定争议。今年早些时候,《自然》上一篇论文提出,用合成数据有可能导致模型崩溃。除混元外,支持使用合成数据的厂商则包括英伟达、Anthropic等。

康战辉告诉记者,使用合成数据的效果如何要看怎么使用、配比如何。类比来看,人类的数据也可认为是由大脑合成的,使用合成数据最重要的是要有一套链路来保障质量可控。客观而言,自然界没有或缺少的数据更需要合成,如数学就需要合成解题过程。混元利用混元内部系列大模型构建合成数据并筛选,再喂给大模型,合成数据更多是对专业数据和自然数据不足情况的补充。

“今年年初开始,模型越来越大,我们发现数据不够了。自然数据增长速度跟不上模型对数据的需求,有一种说法是到2026年自然数据会被‘吃完’。” 康战辉表示,未来大模型合成数据的比例将越来越高。

编辑/范辉

最新评论