不仅开源还便宜好用,硅谷员工直呼“火烧屁股”的DeepSeek大模型强在哪
澎湃新闻 2025-01-26 18:04

国产大模型公司深度求索(DeepSeek)发布的最新AI(人工智能)大模型在海外引起开发者和投资者的热议。

1月20日,量化巨头幻方量化旗下大模型公司DeepSeek正式发布推理大模型DeepSeek-R1。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。目前,在国外大模型排名榜Chatbot Arena上,DeepSeek-R1的基准测试排名已经升至全类别大模型第三,与OpenAI的ChatGPT-4o最新版并列,并在风格控制类模型(StyleCtrl)分类中与OpenAI的o1模型并列第一。

更令市场惊讶的是,据DeepSeek介绍,R1的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成,仅是OpenAI GPT-4o模型训练成本的不到十分之一。DeepSeek表示,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。此外,DeepSeek不仅将R1训练技术全部公开,还蒸馏了6个小模型向社区开源,允许用户借此训练其他模型。

开源模型正在赶超,比OpenAI便宜九成

一经推出,DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动。在API定价方面,DeepSeek R1服务对每百万输入token收取0.55美元,对每百万输出token收取2.19美元/百万,而OpenAI最新版o1模型的相应收费分别为15美元/百万和60美元/百万。在海外AI社区中小有名气的研究者Shubham Saboo表示,作为一款“100%开源”的模型,R1比OpenAI o1便宜96.4%,同时提供类似的性能,建议已经订阅ChatGPT的开发者“放弃沉没成本”。

除了性能方面的突出表现外,DeepSeek还给出了新的AI大模型搭建思路。英伟达高级研究科学家Jim Fan表示,DeepSeek-R1可能是“首个展示了RL(强化学习)飞轮可以发挥作用且能带来持续增长的OSS(开源软件)项目”。其中,“飞轮”用来形容AI系统中自我强化、正向循环的过程。DeepSeek的论文显示,不同于过去AI模型往往依赖于监督微调(SFT,指AI模型通过已标注的数据进行训练),R1完全由强化学习驱动,证明了直接强化学习是可行的。

Jim Fan写道:“我们正处于一个奇特的时间线上,一家非美国公司正在践行OpenAI最初的使命,即实现真正开放的前沿研究并让所有人受益。这种情况简直无法理解。最有娱乐性的结果却是可能性最大的结果。”

硅谷知名投资机构A16z的合伙人、Mistral AI董事会成员Anjney Midha表示:“从斯坦福到麻省理工,DeepSeek-R1几乎在一夜之间成为美国顶尖大学研究人员的首选模型。”德国马克斯·普朗克量子光学研究所AI科学家实验室负责人马里奥·克伦(Mario Krenn)也盛赞DeepSeek-R1的开放性,相比之下,OpenAI旗下的模型“本质上都是黑箱”。

凭借极低的训练成本,DeepSeek-R1也让华尔街和投资者感到了震撼。1月24日,参投过OpenAI、Databricks、Character.AI等知名企业的风险投资巨头安德森·霍洛维茨基金(Andreessen Horowitz)的联合创始人马克·安德森(Marc Andreesen)连转了几篇关于Deepseek-R1的推文,并对其进行了公开赞赏。他在X(原推特)平台上写道:“Deepseek R1是我见过的最令人惊叹和印象深刻的突破之一——作为开源项目,它是对世界的一份深刻馈赠。”

随后,法国企业家、推特意见领袖阿诺德·贝特朗(Arnaud Bertrand)转发了安德森的推文,并称中国AI的发展速度令人惊艳:“Deepseek时刻不仅是关于AI的,而是让世界意识到中国在技术和创新方面已经赶上了美国,并且在某些领域甚至超过了美国,尽管有人努力阻止这种情况的发生。”

在近日举办的2025年达沃斯论坛上,AI科技初创公司Scale AI创始人亚历山大·王(Alexandr Wang)表示,DeepSeek的AI大模型性能“大致与美国最好的模型相当”。去年12月,DeepSeek发布上一代模型V3后,Alexandr Wang就在X平台上评价道:“DeepSeek-V3带给外界的教训是:当美国人在休息时,中国人在工作,并以更便宜、更快、更强的产品迎头赶上。”

而Meta首席AI科学家杨立昆(Yann LeCun)指出,比起“中国AI超越了美国”的观点,DeepSeek-R1更重要的是证明了“开源模型正在超越专用模型”:“DeepSeek得益于开源研究和开源项目(例如PyTorch和来自Meta的Llama)。这就是开放研究与开源的力量。”

1月26日,360创始人周鸿祎发视频谈“中国大模型DeepSeek反超GPT”,称中美AI竞争“最终一定是中国胜利”,就像中国已经在制造业领域战胜了美国:“DeepSeek这家公司最近的表现简直逆天,我相信将来如果要对抗美国的AI技术霸权,中国大模型技术复仇者联盟战队里一定有DeepSeek的一份,因为这家公司和它的创始人非常低调,他们技术能力和未来前景被市场严重低估了。”

AI竞赛发展加速,“烧钱”潮流能否持续

同时,市场开始猜测,DeepSeek-R1的横空出世是否会影响一味“砸钱”投入AI竞赛的美国科技巨头们。分析指出,AI行业竞争或将以比预想中更快的速度加剧,并有可能影响到上游AI硬件企业的收入。

加州大学伯克利分校的AI政策研究员Ritwik Gupta表示,DeepSeek-R1的出现证明了“AI能力没有技术护城河”,并称“中国的系统工程师人才库比美国大得多,他们懂得如何充分利用计算资源来更高效地训练和运行模型”。

1月23日,一名Meta员工在匿名职场论坛Teamblind上发帖称,Meta内部已经因为DeepSeek-R1而进入“恐慌模式”。这位员工写道:“Meta的工程师们正在争分夺秒地分析DeepSeek,试图复制其中一切可能的技术,管理层正为生成式AI研发部门的巨额投入而发愁。”

该员工表示,DeepSeek-R1的训练成本不到550万美元,而Meta的生成式AI部门里“每位领导的薪资都超过了这个数字”:“(AI部门)本应是一个以工程为核心的小型组织,但因为很多人都想进来分一杯羹,人为膨胀了组织的规模,结果人人都是输家。”

随后,有认证为谷歌员工的网友回复上述言论称:“DeepSeek做的事情很疯狂。不仅是Meta,OpenAI、谷歌和Anthropic都因为他们而火烧屁股。这是一件好事,我们可以见证公开竞争对创新的推动作用。”

或许是因为感受到了竞争压力,Meta的CEO马克·扎克伯格(Mark Zuckerburg)于24日在旗下社交平台上表示,公司计划在2025年投资600亿至650亿美元用于资本支出,并计划大幅扩张AI团队。到2025年年底,Meta将拥有超过130万个GPU。扎克伯格称“今年将是AI的关键一年”,公司还将在路易斯安那州建设一座价值100亿美元的数据中心。

编辑/樊宏伟

相关阅读
DeepSeek概念爆发 每日互动、卓创资讯涨停 并行科技等大涨
证券时报网 2025-01-27
《黑神话:悟空》制作人力推DeepSeek:顶级科技成果,六大突破
澎湃新闻 2025-01-27
DeepSeek朝硅谷“开了一枪”
科创板日报 2025-01-27
DeepSeek登顶苹果中国免费APP榜,实控人梁文锋为私募大佬
中新经纬 2025-01-27
DeepSeek超越ChatGPT,登顶苹果美国区免费APP下载排行榜
澎湃新闻 2025-01-27
大模型身瘦路更宽
经济日报 2025-01-26
超越OpenAI o1! DeepSeek-R1升至全球风格控制类第一,“中国模型”震动华尔街
21世纪经济报道 2025-01-26
“DeepSeek崛起提醒我们:制裁越严厉,中企进步越快?”
观察者网 2025-01-25
最新评论