北京青年报

当我们谈论DeepSeek时，是在谈论什么

北京青年报政知见 2025-02-07 07:34

（图片来源：pixabay）

连日来，随着DeepSeek持续霸榜热搜，其创始人梁文锋的许多观点也热传于网络。

"中国AI和美国有一两年差距，但真实的gap是原创和模仿之差"“过去三十多年IT浪潮里，我们基本没有参与到真正的技术创新里” "经验包袱太重的人，创新动力不足”……他的话语朴实且坦诚，道理讲得很白，却给人耳目一新之感。这一点，与大家在使用DeepSeek时的感受是相当一致的。

在国内舆论场中，梁文锋本人与DeepSeek是深度捆绑的，有人称他是人工智能上甘岭的“黄继光”，有人说他是中国的“马斯克”，但在笔者看来，更重要的或许在于做好DeepSeek与梁文锋思维的解码，换言之，大家应当更加清楚地知道，当我们在谈论DeepSeek时，到底在谈论什么，或者说应该谈论什么。

其一：突围，山重水复疑无路

ChatGPT问世以来，全球AI竞赛正式进入“大力出奇迹”时代。巨参数、大数据、强算力成为大模型研发的基础，规模法则（scaling law）被认为是智能“涌现”的核心：OpenAI的GPT-4参数规模突破1.8万亿，训练数据集包含13万亿token；微软、谷歌等一众科技巨头均斥巨资囤积算力。而在规模法则的另一面，全球高质量文本数据迅速枯竭；单次训练成本逐渐失控；美国对芯片采取针对性出口管制，以维护其算力霸权及AI技术优势。

当美国科技大厂已投入巨资，构建起了一套由他们制定的行业标准、生存法则时，当很多人潜意识中已默许，AI领域未来发展的话语权、主导权和控制权正牢牢掌握在西方手中时，来自中国的DeepSeek却突然闯了进来。

其用架构算法、训练方式、工程优化等系统性创新，在千亿参数规模下展现出与GPT-o1-1217相当的推理能力，以显著降低的训练成本，走出一条震惊世界的差异化技术路径，实现国产大模型的突围。

正如有论者指出，DeepSeek让许多人认识到一个一直存在但被忽视的重要趋势，那就是中国在生成式AI领域正在快速追赶美国。要知道，拜登政府2022年实施并在此后多次收紧禁止向中国出售最先进芯片及芯片制造设备的禁令，目的就是限制中国获取尖端技术。DeepSeek团队正是在美国AI芯片禁运的压力下，不得不在较低性能的H800 GPU上训练模型。但正是这样的“降维”，反而推动了算法优化的突破。

其二：创新，东风夜放花千树

DeepSeek的成功，挑战了AI领域“规模至上”的传统思维。那么从技术角度看，DeepSeek主要创造了哪些核心创新？

首先是模型架构。混合专家模型（MoE）通过将模型分成多个专家，并在每个特定任务中只激活少量合适的专家，从而在推理过程中减少参数量，提升效率。据透露，GPT-4便采用了MoE框架，而DeepSeek-V3对MoE框架进行了重要创新，新框架包含细粒度多数量的专业专家和更通用的共享专家。

就MoE框架而言，其面临的一个重要难题是如何确定哪个标记（token）会到达哪个专家或子模块。DeepSeek引入了新的无损负载均衡技术和路由网络方法，有效降低了通信开销，突破了传统方法增加通信开销换取高效推理的瓶颈，使得新框架更加稳定高效。

其次是算法突破。多头潜在注意力机制（Multi-Head Latent Attention，MLA）是DeepSeek最关键的技术突破，它显著降低了模型推理成本。在过去，推理能力最大的限制之一即为加载上下文所需的内存: KV缓存是Transformer中的一种内存机制，它将每一步生成的键（Key）和值（Value）保存到缓存中，随着上下文长度的增加，KV缓存显著增加。而MLA可将每个查询所需的KV缓存降低90%以上。

第三是训练方式。DeepSeek-R1-Zero首次证明了基于大规模强化学习（RL）与高质量合成数据（Synthetic Data）结合的技术路径，可在不依赖标注数据、监督微调（SFT）的情况下，获得高水平推理能力。在R1-Zero训练中，DeepSeek应用组相对优化策略（GRPO）和两个简单的奖励函数（回答准确性和思维过程格式准确性奖励），使得R1-Zero自发形成了评估和优化推理的能力，产生令人惊叹的“顿悟时刻”（Aha Moment）。

DeepSeek-R1则是在R1-Zero基础上，进一步利用少量标注数据监督微调作为冷启动，并结合强化学习进行后训练，显著提升了模型生成结果的可读性及面向开放问题的推理能力。此外，DeepSeek也验证了模型蒸馏技术在推理能力上的有效性。

第四是数据策略。DeepSeek采用高质量合成数据的数据策略与其训练方式、推理任务相匹配，极大降低了数据成本。“数据质量优先”的核心原则也已逐渐成为领域共识：比数据规模更重要的是数据质量与知识密度，相应地，DeepSeek采取了拒绝采样（rejection sampling）等基于验证的数据筛选与增强方法。

最后是工程技术。除了在架构、算法、技术路径等方面形成“软突破”，成功降低训练成本，提升模型效率，DeepSeek团队强大的工程优化能力也同样令人惊叹。DeepSeek绕过了英伟达的通用编程框架CUDA，使用了更底层也更复杂的PTX（Parallel Thread Execution）汇编语言直接操控GPU指令集，从而实现芯片算力的效用最大化。这一“硬突破”也一定程度上威胁到英伟达生态的护城河，为未来适配国产GPU留下巨大的想象空间。

其三：未来，长风破浪会有时

DeepSeek的横空出世让人们重新反思大模型、AGI领域暴力美学式的思维惯性，也重新关注算法、架构、优化等技术创新的巨大潜力。更重要的是，DeepSeek-R1还可以免费使用，而且是开源的。低成本与开放性的强强联合可能有助于普及AI技术，让其他国家（尤其是美国以外）的开发者能够入局。当美国公司在为试图进入该领域的竞争对手设置尽可能多的障碍时，中国却在开放这项技术，这确实是一种讽刺。

曾几何时，硅谷将AI技术塑造为一个珍贵且神奇的成就，将埃隆·马斯克、萨姆·奥尔特曼等领军人物描绘成引领人类进入新世界的先知。而DeepSeek撕掉了此前笼罩在AI之上的神秘面纱。

它专注创新，在人工智能全球竞争白热化的关键时期形成突破，为中国的智能生态构建奠定关键基础；它拥抱开源，拒绝“Close AI”，为全世界技术社区做出坚实贡献。当我们赞叹DeepSeek产品的巨大成功，也应当关注其团队的系统性创新能力，这既包含多方面的技术突破，也包括如何聚合“高密度技术人才”、如何为年轻团队提供高效的创新土壤。

最后，也要指出DeepSeek的关键破局点，是在保持推理能力相当的情况下，实现了训练及计算成本的极大降低。而从数学原理上说，并未跳出大模型浪潮范畴，这也意味着，DeepSeek也无法解决这一技术路线下不可解释、幻觉等内在问题。因此，关于智能“涌现”的根本奥秘，关于现有模型的智能边界与潜力，关于模型的解释性、泛化性、稳定性，尤其是幻觉引发的认知安全风险，仍是值得深入探索的重要议题；长期而言，算力依然是人工智能的基础设施，我们也期待芯片领域诞生属于中国的DeepSeek时刻。

（文 /王鑫北京航空航天大学人工智能学院副教授）

编辑/马晓晴