北京青年报

不仅开源还便宜好用，硅谷员工直呼“火烧屁股”的DeepSeek大模型强在哪

澎湃新闻 2025-01-26 18:04

国产大模型公司深度求索（DeepSeek）发布的最新AI（人工智能）大模型在海外引起开发者和投资者的热议。

1月20日，量化巨头幻方量化旗下大模型公司DeepSeek正式发布推理大模型DeepSeek-R1。作为一款开源模型，R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版，并采用MIT许可协议，支持免费商用、任意修改和衍生开发等。目前，在国外大模型排名榜Chatbot Arena上，DeepSeek-R1的基准测试排名已经升至全类别大模型第三，与OpenAI的ChatGPT-4o最新版并列，并在风格控制类模型（StyleCtrl）分类中与OpenAI的o1模型并列第一。

更令市场惊讶的是，据DeepSeek介绍，R1的预训练费用只有557.6万美元，在2048块英伟达H800 GPU（针对中国市场的低配版GPU）集群上运行55天完成，仅是OpenAI GPT-4o模型训练成本的不到十分之一。DeepSeek表示，R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。此外，DeepSeek不仅将R1训练技术全部公开，还蒸馏了6个小模型向社区开源，允许用户借此训练其他模型。

开源模型正在赶超，比OpenAI便宜九成

一经推出，DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动。在API定价方面，DeepSeek R1服务对每百万输入token收取0.55美元，对每百万输出token收取2.19美元/百万，而OpenAI最新版o1模型的相应收费分别为15美元/百万和60美元/百万。在海外AI社区中小有名气的研究者Shubham Saboo表示，作为一款“100%开源”的模型，R1比OpenAI o1便宜96.4%，同时提供类似的性能，建议已经订阅ChatGPT的开发者“放弃沉没成本”。

除了性能方面的突出表现外，DeepSeek还给出了新的AI大模型搭建思路。英伟达高级研究科学家Jim Fan表示，DeepSeek-R1可能是“首个展示了RL（强化学习）飞轮可以发挥作用且能带来持续增长的OSS（开源软件）项目”。其中，“飞轮”用来形容AI系统中自我强化、正向循环的过程。DeepSeek的论文显示，不同于过去AI模型往往依赖于监督微调（SFT，指AI模型通过已标注的数据进行训练），R1完全由强化学习驱动，证明了直接强化学习是可行的。

Jim Fan写道：“我们正处于一个奇特的时间线上，一家非美国公司正在践行OpenAI最初的使命，即实现真正开放的前沿研究并让所有人受益。这种情况简直无法理解。最有娱乐性的结果却是可能性最大的结果。”

硅谷知名投资机构A16z的合伙人、Mistral AI董事会成员Anjney Midha表示：“从斯坦福到麻省理工，DeepSeek-R1几乎在一夜之间成为美国顶尖大学研究人员的首选模型。”德国马克斯·普朗克量子光学研究所AI科学家实验室负责人马里奥·克伦（Mario Krenn）也盛赞DeepSeek-R1的开放性，相比之下，OpenAI旗下的模型“本质上都是黑箱”。

凭借极低的训练成本，DeepSeek-R1也让华尔街和投资者感到了震撼。1月24日，参投过OpenAI、Databricks、Character.AI等知名企业的风险投资巨头安德森·霍洛维茨基金（Andreessen Horowitz）的联合创始人马克·安德森（Marc Andreesen）连转了几篇关于Deepseek-R1的推文，并对其进行了公开赞赏。他在X（原推特）平台上写道：“Deepseek R1是我见过的最令人惊叹和印象深刻的突破之一——作为开源项目，它是对世界的一份深刻馈赠。”

随后，法国企业家、推特意见领袖阿诺德·贝特朗（Arnaud Bertrand）转发了安德森的推文，并称中国AI的发展速度令人惊艳：“Deepseek时刻不仅是关于AI的，而是让世界意识到中国在技术和创新方面已经赶上了美国，并且在某些领域甚至超过了美国，尽管有人努力阻止这种情况的发生。”

在近日举办的2025年达沃斯论坛上，AI科技初创公司Scale AI创始人亚历山大·王（Alexandr Wang）表示，DeepSeek的AI大模型性能“大致与美国最好的模型相当”。去年12月，DeepSeek发布上一代模型V3后，Alexandr Wang就在X平台上评价道：“DeepSeek-V3带给外界的教训是：当美国人在休息时，中国人在工作，并以更便宜、更快、更强的产品迎头赶上。”

而Meta首席AI科学家杨立昆（Yann LeCun）指出，比起“中国AI超越了美国”的观点，DeepSeek-R1更重要的是证明了“开源模型正在超越专用模型”：“DeepSeek得益于开源研究和开源项目（例如PyTorch和来自Meta的Llama）。这就是开放研究与开源的力量。”

1月26日，360创始人周鸿祎发视频谈“中国大模型DeepSeek反超GPT”，称中美AI竞争“最终一定是中国胜利”，就像中国已经在制造业领域战胜了美国：“DeepSeek这家公司最近的表现简直逆天，我相信将来如果要对抗美国的AI技术霸权，中国大模型技术复仇者联盟战队里一定有DeepSeek的一份，因为这家公司和它的创始人非常低调，他们技术能力和未来前景被市场严重低估了。”

AI竞赛发展加速，“烧钱”潮流能否持续

同时，市场开始猜测，DeepSeek-R1的横空出世是否会影响一味“砸钱”投入AI竞赛的美国科技巨头们。分析指出，AI行业竞争或将以比预想中更快的速度加剧，并有可能影响到上游AI硬件企业的收入。

加州大学伯克利分校的AI政策研究员Ritwik Gupta表示，DeepSeek-R1的出现证明了“AI能力没有技术护城河”，并称“中国的系统工程师人才库比美国大得多，他们懂得如何充分利用计算资源来更高效地训练和运行模型”。

1月23日，一名Meta员工在匿名职场论坛Teamblind上发帖称，Meta内部已经因为DeepSeek-R1而进入“恐慌模式”。这位员工写道：“Meta的工程师们正在争分夺秒地分析DeepSeek，试图复制其中一切可能的技术，管理层正为生成式AI研发部门的巨额投入而发愁。”

该员工表示，DeepSeek-R1的训练成本不到550万美元，而Meta的生成式AI部门里“每位领导的薪资都超过了这个数字”：“（AI部门）本应是一个以工程为核心的小型组织，但因为很多人都想进来分一杯羹，人为膨胀了组织的规模，结果人人都是输家。”

随后，有认证为谷歌员工的网友回复上述言论称：“DeepSeek做的事情很疯狂。不仅是Meta，OpenAI、谷歌和Anthropic都因为他们而火烧屁股。这是一件好事，我们可以见证公开竞争对创新的推动作用。”

或许是因为感受到了竞争压力，Meta的CEO马克·扎克伯格（Mark Zuckerburg）于24日在旗下社交平台上表示，公司计划在2025年投资600亿至650亿美元用于资本支出，并计划大幅扩张AI团队。到2025年年底，Meta将拥有超过130万个GPU。扎克伯格称“今年将是AI的关键一年”，公司还将在路易斯安那州建设一座价值100亿美元的数据中心。

编辑/樊宏伟