半两财经|免费 中文表达强 85后创始人 一夜出圈的DeepSeek到底厉害在哪
北京青年报客户端 2025-01-28 12:26
更多资讯 关注半两财经

当地时间1月27日,美国芯片巨头英伟达股价暴跌17%,市值跌去5900亿美元(约合人民币4.24万亿元)。这与来自中国的人工智能初创公司DeepSeek“现象级崛起”密切相关,“好用、免费、训练成本低”,DeepSeek连续多日引发了全民关注,服务器还一度卡到宕机。

访问量激增到一度宕机

DeepSeek一夜火出圈。从昨天开始,微信朋友圈、微博等似乎全网都在讨论或者分享DeepSeek。这款突然出圈的AI模型到底是什么?和目前市面上的大模型有何不同,为何能一夜出圈,引发全民关注?

1月28日凌晨,人工智能社区Hugging Face显示,DeepSeek刚刚发布了开源多模态人工智能模型Janus-Pro,拥有10亿和70亿参数规模,仅使用128颗英伟达A100进行训练1周。

DeepSeek有多好用?一位用户表示,以往的AI大模型都是只给出结果,但是DeepSeek会给出其思考和过程,更加可信,“不论是让它写一段代码,还是进行数学运算,它会首先给出它的推理过程。比如需要先算什么,这步的步骤是什么,再算什么,这步的式子怎么列,答案是什么……这让推理逻辑变得十分清晰、有迹可循,我们也更加敢于信任AI”。

此外,它的中文表达能力十分惊喜,可以模仿许多作家的口吻来表达,“用古龙体写小说,甚至用二次元体,都可以写得很溜。以往的AI写作,看起来写得也不错,但是要么是没有感情,堆砌词藻,要么是文体别扭,缺乏灵魂。DeepSeek则细节满满。”

最重要的是,它完全免费,“能力差不多的ChatGPT,宣称免费,但实际上每月需要花费200美元才能完全使用!”用户表示。

1月27日,苹果App Store中国区免费榜显示,DeepSeek站上首位。同时,DeepSeek在美区苹果App Store免费榜从昨日的第六位飚升至第一位,超越ChatGPT及Meta公司旗下的社交媒体平台Threads,以及Google Gemini、Microsoft Copilot等美国科技公司的生成式AI产品。

不过随后,不少用户表示,系统出现了短时闪崩现象。对此,DeepSeek回应称,当天下午确实出现了局部服务波动,但问题在数分钟内就得到了解决。此次事件可能是由于新模型发布后,用户访问量激增,服务器一时无法满足大量用户的并发需求。

DeepSeek厉害在哪儿

除了体验更好,对于资本市场来说,DeepSeek更大的惊喜来自于它的推理成本大幅降低。有数据显示,最新版的推理大模型DeepSeek-R1,输入token定价为0.55美元/百万(OpenAI为15美元/百万),输出token为2.19美元/百万(OpenAI为60美元/百万),成本降低超90%。而此前DeepSeek-V3仅用550万元研发成本、2000张显卡打造,却达到与Llama 3 405B相媲美的性能,而OpenAI为了实现这一目标,花费了数亿美元。

为何可以做到这样的低成本训练?据介绍,DeepSeek通过创新架构,节省了大量的显存,进而实现底层算力的高效利用,以更低的成本训练出更加出色的模型效果;同时,研发团队证明,多Token预测目标有利于提高模型性能,可以用于推理加速的推测解码。此外,DeepSeek V3引入了一种创新方法,将推理能力从长思维链模型,蒸馏到标准模型上,在显著提高推理性能的同时,可以进行长度控制。

“DeepSeek颠覆了之前大模型公司‘堆卡’的比拼。实际上近期一些大模型公司已经没有特别大的技术创新了,模型的能力提升来自于不断堆卡、堆卡,这只利好英伟达,可以说挖矿的人没有赚到钱,卖铲子的盆满钵满……而DeepSeek击碎了模型性能与GPU数量成正比的估值模式,对整个大模型系统是一次价值重估”,一位分析人士表示。

面壁智能首席科学家刘知远在朋友圈发文称,“DeepSeek最近出圈,特别好地证明了我们的竞争优势所在,就是通过有限资源的极致高效利用,实现以少胜多。2024年很多人来问我,中国跟美国的AI差距是扩大了还是缩小了,我说明显缩小了,但能感受到大部分人还不太信服,现在DeepSeek等用实例让大家看到了这点,非常赞。”

英伟达等美股科技公司市值暴跌

资本市场迅速做出反应:英伟达公司股票27日以每股124.80美元开盘,大幅下跌12.49%,此后跌幅持续扩大,收盘时下跌16.97%,市值蒸发约5900亿美元,创下美国上市公司单日市值损失的纪录。此外,博通公司股价盘中跌幅一度接近20%,收盘时下跌17.4%。截至收盘,纳斯达克综合指数下跌612.47点,收于19341.83点,跌幅为3.07%。其他主要股指中,科技板块同样领跌。

对此,英伟达公开回应称:“DeepSeek是一项卓越的人工智能进展,也是测试时扩展的绝佳范例。DeepSeek的研究展示了如何运用该技术,借助广泛可用的模型以及完全符合出口管制规定的算力,创建新模型。”

“神秘的东方力量”从未对外融资

对于DeepSeek爆火,85后创始人梁文锋回应:中国AI不可能永远跟随。

DeepSeek是杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月。公司由知名量化资管巨头幻方量化创立。公司创始人梁文锋,本科、研究生毕业于浙江大学,拥有信息与电子工程学系本科和硕士学位。2008年起,他开始带领团队使用机器学习等技术探索全自动量化交易。2023年,进军通用人工智能领域。

公开信息显示,该团队“小而精”,只有100多人,与之相比,OpenAI有1200名研究人员。公司的工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,年纪也多在35岁以下。梁文锋曾表示,“招聘看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。”

值得注意的是,目前该公司从未对外融资。“我们跟了这家公司一年多了,一直想要进入,但是对方根本没有融资诉求”,国内一家大型资本机构负责人告诉北青报记者,“他们公司此前是做量化的,资金实力雄厚。”梁文锋也曾公开表示,“短期内没有融资计划”,并认为当下面临的问题“从来不是钱,而是高端芯片(短缺)”。

在被称为“神秘的东方力量”的DeepSeek火了之后,据称,Meta内部甚至成立了专门的研究小组,试图剖析DeepSeek的技术细节,以改进其Llama系列模型,并且新年计划中预算4000亿起步投资AI,年底AI算力将达130万卡。OpenAI也紧急透露新模型o3-mini即将免费上线ChatGPT的消息。

业内人士表示,关于AI大模型竞争仍然激烈,AI应用的创新和提升空间仍然很大,尤其是在面临算力限制的现实情况下,未来国内外的大模型市场格局还将不断变化与重塑。

【版权声明】本文著作权(含信息网络传播权)归属北京青年报社所有,未经授权不得转载

文/北京青年报记者 温婧
编辑/倪家宁

相关阅读
苹果重夺“全球股王”:iOS 18.3默认开启AI DeepSeek送上助攻
财联社 2025-01-29
DeepSeek 展望蛇年A股!AI的ASIC时代到来?
证券时报网 2025-01-28
昨夜 美芯片股暴跌!DeepSeek发布新模型 白宫也发声!
证券时报网 2025-01-28
股价暴跌 英伟达发声!
证券时报网 2025-01-28
中国的“ChatGPT时刻”来临?
解放日报 2025-01-28
受股价暴跌影响 英伟达创始人CEO黄仁勋的个人财富也在一夜间缩水超过130亿美元
第一财经 2025-01-28
英伟达狂泄16.86%!美股三大股指涨跌互现,纳指重挫3.07%
第一财经 2025-01-28
DeepSeek“恐惧感”支配硅谷!Meta被曝组建4个小组专门研究
澎湃新闻 2025-01-27
最新评论