北京青年报

国内大模型春节前迎来密集发布周，一手追赶OpenAI一手寻找新方向

第一财经 2025-01-22 14:52

春节前，国内大模型迎来一波密集更新。

1月20日上午，MiniMax海螺上线了语音功能，同日下午，字节豆包上线实时语音大模型。1月20日晚，DeepSeek发布了DeepSeek-R1模型，一个多小时后，月之暗面Kimi就推出k1.5多模态思考模型，两家都称新模型性能对标OpenAI o1正式版。

以上更新既包括追赶OpenAI o1系列推理模型，又包括追赶OpenAI的实时语音功能。 1月21日，腾讯则开源了混元3D生成大模型2.0，指向另一个方向3D生成大模型，面向游戏、具身智能等领域的大模型应用。同一天，一直强调应用的百度开启“自由画布”应用的公测，百度副总裁王颖透露，百度文库AI功能MAU（月活跃用户）已突破9000万。更新的同时，一些大模型企业透露了后续迭代方向。这些大模型企业年初释放的信号可能指明了今年大模型领域的竞争方向。

拉近与OpenAI的差距

一名国内头部大模型厂商研发人员看过Kimi k1.5和DeepSeek-R1的报告后，告诉第一财经记者，这两个模型更新与OpenAI o1系列的长思维链推理方向大致一致，但技术方案可能不完全相同，毕竟OpenAI没有详细透露o1的做法。这类模型的迭代要点还在于技术指标提升，不在于功能开发。

当前，并非所有国内头部大模型厂商都已经追赶上o1的能力，但最新更新的两个模型在一些能力上追上了o1。月之暗面称，在long-CoT（长链思维）模式下，Kimi k1.5的数学、代码、多模态推理能力达到长思考SOTA（某领域性能最优、最先进）模型o1正式版的水平，这是OpenAI之外的公司首次实现o1正式版的多模态推理性能。Kimi是在去年11月发布k0-math数学模型、12月发布k1视觉思考模型后再一次更新k系列模型。

DeepSeek则表示，DeepSeek-R1在数学、代码、自然语言推理等任务上的性能比肩o1正式版，且该模型的API服务定价为每百万tokens输入 1元（缓存命中）、每百万tokens 输出16元，远低于o1的55元、438元。

相对闭源的OpenAI o1，这两家大模型公司对新模型的态度相对开放。Kimi首次公开了模型训练技术报告，DeepSeek-R1上线API接口的同时也开源了模型权重。从发布时间看，国内大模型公司与OpenAI的技术差距可能缩短至1个多月。当地时间2024年12月18日，OpenAI推出了正式版o1模型，取代了去年9月发布的预览版o1-preview，目前距离o1正式版发布只有1个多月时间。

一些学术界人士认为，新推出的模型代表了业界先进水平。加利福尼亚大学伯克利分校教授Alex Dimakis表示，跟他交流过的多数AI研究人员都对DeepSeek-R1的性能感到有些震惊，DeepSeek似乎是奔赴OpenAI最初使命的“最佳人选”，其他公司需要迎头赶上。“我们生活在这样一个时代，一家非美国公司正在让OpenAI的初衷得以延续，即做真正开放、为所有人赋能的前沿研究。DeepSeek-R1可能是第一个展示了RL（强化学习）飞轮可发挥作用且能带来持续增长的OSS（开源软件）项目。”英伟达高级研究科学家Jim Fan表示。

发布新模型的同时，月之暗面透露了下一步迭代方向，称Kimi会继续升级k系列强化学习模型，带来更多模态、更多领域的能力和更强的通用能力。

语音方面，OpenAI去年5月发布可实时语音交互的4o模型，9月向ChatGPT订阅用户开放高级语音模式。MiniMax和字节豆包的语音功能上线距离OpenAI开放高级语音模式则是近4个月时间。

寻找新方向

1月21日下午，腾讯混元开源了3D生成大模型2.0版本，该大模型支持文生、图生3D的能力，混元同时上线了3D内容AI创作平台混元3D AI创作引擎。

与OpenAI等大模型厂商在大语言模型领域推进长思维链推理、多模态交互的方向不同，3D生成大模型针对的是3D资产生成，面向游戏制作、电商广告、工业制造、具身智能等领域，腾讯等企业正在探索这个方向。据介绍，混元3D生成能力已用于腾讯内部游戏业务，可让3D资产制作时间成本由5~10天级别下降至分钟级，同时也用于腾讯地图的3D导航车标自定义。

3D生成大模型应用后续可能还会扩大。此前记者了解到，游戏美术领域AI生成2D资产的技术较成熟，3D技术还需要进一步成熟。就AI在游戏领域的实际使用情况，腾讯游戏在研项目制作人王智刚告诉记者，他负责的项目在提高AI于制作管线中的渗透率，使用AI辅助后，制作一个游戏图标的时间已从一两天降到几十秒，成本从几百元降到几分钱，目前2D环节原画都会用AI生图，3D生成大模型技术也在提升3D资产制作效率。目前3D生成大模型技术可以应用到休闲游戏，但他判断，随着技术优化，用于偏写实的游戏项目后续也将可行。

腾讯混元3D负责人郭春超则介绍，很多具身智能机器人团队已经找到混元，希望获得接口来生成机器人仿真环境中的3D资产，也有一些自动驾驶公司希望用3D生成大模型来生成数据。

从技术可提升空间看，郭春超表示，业界有关于大语言模型Scaling Law（缩放定律）是否失效的讨论，但3D领域距离Scaling Law触碰天花板还有很远，原因在于3D领域数据量不多，可能只是千万tokens级别，而文本领域的数据是T（千亿）级别，图片是百亿量级。

不过，3D生成大模型领域也存在挑战。郭春超告诉记者，最大的技术挑战在于数据量不足。从成熟度看，3D和视频大模型还没有到达充分的拐点，仍处于前半赛程。

“就3D大模型技术发展的最终形态，业界分歧非常大，包括世界模型是什么也没有明确的定义，目前主要流派包括Sora纯视频生成、谷歌Genie 2可交互视频生成、World Lab世界模型等，各种流派各有优缺点。” 郭春超表示，关于3D生成大模型下一步往什么方向迭代，团队一直在思考，方向包括从生成3D人物或物体延伸到生成3D场景等，但至于一年后是何种形态，目前还难以预料。

编辑/樊宏伟