从“造锤子”到“找钉子”,大模型这一年走慢了吗?
第一财经 2024-12-11 21:57

大模型这一年有哪些关键词?

从不同的从业者那里,第一财经记者收到的回答包括视频模型Sora、推理模型GPT-o1,年中的Token(词元)价格战,以及百花齐放的落地。

2023年,枫清科技(Fabarta)在寻找场景落地,但创始人高雪峰的感受是,去年市场对落地的关注度并没有那么高,“大家都还是追捧着头部大模型,推出新的版本,更大的参数、聊天更好、更顺畅等等这件事情上。”他发现,去年大的企业还都是随便拿一个商用大模型来做尝试。

但今年风向变了,大家发现大模型得用起来才有价值。有大模型企业传出放弃做预训练大模型,转做相应的产品。“得让大家能真正用起来,不论是大B还是C端的场景,一定得用起来才能知道好坏,才能促进迭代,要不然就是供在那,没有任何意义和价值。”高雪峰感受到更多客户愿意合作了。

在Scaling Law(尺度定律)这条路线上,行业开始出现分歧,一方面是大规模预训练价格不菲,投入产出比并不确定,另一方面,关于预训练“撞墙”、大模型放缓的讨论也越来越多,从24年年初开始有论文提出模型能力提升速度随着参数规模的扩大而放缓,到11月,OpenAI前首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)在公开场合表示,简单地增加数据和计算能力来扩大当前模型规模的时代已经结束。

但伊利亚没被传开的后半句是,“现在重要的是扩大正确的规模”,有人认为OpenAI转向推理模型是迭代放缓的证明,也有行业人士认为这是“Scale”的范式变了,从预测下一个Token到用强化学习的方法去“Scale”。

矛盾似乎充斥着AI的2024年,大模型一边背负着巨大期望,一边接受着现实的拷打。迈过2024年,我们需要抱着什么样的信心去看待通往AGI(通用人工智能)的历程?

大模型慢了吗

2024年初,大家还在惊叹于Sora让“现实不存在了”,感慨生成式AI改变世界的速度,担心自己被AI替代,但到年末,大家开始发现人工智能并不智能,通往AGI的道路受阻,GPT-5没有在预期中出现,行业质疑大模型是否走慢了。

回顾这一年,跬智信息(Kyligence)联合创始人兼 CTO李扬印象最深刻的是,Sora、GPT-o1以及马斯克大力投入的Grok。“一方面是激烈地争夺,另一方面整体大模型能力似乎又放缓。”

2023年,马斯克旗下的xAI推出了Grok系列模型,为了让其后来居上,一向激进的马斯克大手笔屯了10万张英伟达GPU卡建立AI集群,并在年底融了一轮60亿美元的资金,用于继续购买英伟达显卡以扩大其集群。

过去几年,大模型参数从千亿级到万亿级以至十万亿级,预训练的成本越来越高,成为资本驱动的游戏。Anthropic创始人达里奥·阿莫迪(Dario Amodei)曾在播客里谈到,正在训练的一些模型的成本接近 10 亿美元,且这个数字未来还会上涨,未来三年可能会达到 100亿美元至1000亿美元。

在高昂的成本和不确定的投入产出比下,越来越多公司开始衡量预训练的性价比,尤其在预训练有可能“撞墙”的趋势下。

李扬认为,大模型在放缓是不争的事实,行业既有乐观也有悲观派,他们在某种角度上都正确,只是发言的层次不同。乐观派通常表示AI整体大方向正确,没有人会反对。但针对GPT和Transformer的技术路线,他认为这个路线有自己的天花板。

“半年或者一年前大家仍然有犹豫,但目前只需要观察所有大模型厂商目前的产品到哪里,以OpenAI为代表,推出下一代大模型的速度受阻,只关注这一结果,可以清楚他们一定遇到了技术阻力。”李扬表示。

在今年6月演讲时,金沙江创投主管合伙人朱啸虎曾谈及GPT-5一直“跳票”时就表示,“硅谷也高度怀疑GPT-5还有没有,即使出来在核心推理能力上还有没有显著的提高,这是很不确定的东西,今年年底是一个验金石。”他判断,大模型演化速度有放缓趋势。

但在这一点上,行业尚未达成共识,不少从业者并不认为迭代速度在放缓。

MiniMax副总裁刘华告诉记者,2024年仍是大模型飞速发展的一年,目前技术没有看到上限。“我们不太同意大模型‘撞墙’的说法,也没有感受到Scaling Law放缓。相反,我们今年看到更多模型研发方向。以往Scaling Law大家认为就是训练阶段的Scaling Law,今年突然发觉大模型推理也有Scaling Law了。”刘华说。

另一名头部大模型厂商研发人员告诉记者,他感受到近半年来大模型技术也没有走慢,全世界对大模型的研发投入还在高速增长,进展也一直有,只不过不算突破性进展。

“之所以有些人认为走慢了,是因为突破性的进展不是天天有,即便有突破性进展也不是每个都能出圈。业界仍然在向上触摸原本技术路线的天花板,可能快到瓶颈期了,需要新的突破。”上述研发人员告诉记者,可以肯定的是,现在大模型进化的幅度小于从GPT-3到GPT-4之间的幅度,所以GPT-5才一直没有出来。不过,这不意味着突破性进展不会到来,现在谁也说不准,是不是GPT-5明年就推出了、突破性进展很快就出现了。

此前一家AI初创企业的创始人也对第一财经表示,大模型技术迭代保持着2018年以来的增速,那一年基于Transformer架构的大规模语言模型预训练开始流行。“大家之所以有这样的感觉(技术迭代放缓)是因为大众是在2022年底、2023年初第一次看到这个技术,做了很多短时间的learning和追赶,追赶当然比较快。”

“行业还在飞速发展,只不过国内有点滞后。”大模型生态社区OpenCSG(开放传神)创始人陈冉对第一财经表示,模型天天变,不变的是数据沉淀,他认为,行业数据才是关键,不是预训练。

行业大致的共识是,大模型在数据语料上面遇到了瓶颈,“互联网上的人类语料是基本原料,已经耗尽了,虽然模型变大了,但是输入没有变得更多,无法学习新知识。”李扬认为。

一名大模型开发人员也告诉记者,现在业界已经在用合成数据应对自然数据即将用尽的挑战,不过使用合成数据能在多大程度提升模型表现,现在业界并不确定。

在瑞银证券中国科技软件分析师张维璇看来,大模型的scaling law是否变缓,GPT-5什么时候可以出来,大家都还没有很明确的解答。她也认为,现在卡点不是在算力上面,而是在数据上面。

“所以会有很多新的技术方向是如何利用合成数据,如何在post-training(后训练)这个阶段进一步加强模型推理的能力,这是新的金矿。”张维璇认为,未来post-training这个金矿会被更多地挖掘,就和最开始scaling law在预训练这个阶段挖金山一样。

大模型是不是走慢了不能下定论,不过,即便速度放缓,李扬也并不认为这是一个问题。从技术人员的角度来看,所有技术都具有局限性,基于GPT和Transformer框架技术的局限性属于正常且并不意外。“人也不能无限学习,为什么我们找到的第一代通用智能就能实现无限学习,我原本就没有这个预期,我认为它并非缺点。”

如果将机器训练比作人类学习,这个问题可以变成,人能否在无限的学习中变得更聪明,李扬认为,人也在某个领域存在知识上的瓶颈,如果人无法无限学习并变得更聪明,为什么基于模式识别的大模型就一定可以?“大模型目前可能在‘大专’遇到了瓶颈,未来仍然有一定的发展空间,只是提升的速度没有以前快。”

对国内大模型行业来说,遇到瓶颈、迭代速度放缓是个好消息,跑得快的人跑得慢了,在一个很好的时间窗口中国内可以缩短与海外的差距。从商业落地中的感受来看,李扬认为,现在海内外的差距已经不如一年前那么大了,追近了不少。

范式变了

在关于大模型速度放缓的争论中,一个关键的点是OpenAI于9月发布的推理模型GPT-o1,这一模型擅长处理复杂的推理任务,尤其是在科学、技术、工程和数学(STEM)领域,其评测分数都远远超过GPT-4o。

GPT-5并没有出现,但出现了GPT-o1,有人认为这是迭代速度放缓的信号,也有不少业内人士认为,o1是转向了另一个方向的“Scale”,将计算资源从大规模预训练数据集重新分配到训练和推理阶段,也就是说,Scaling Law在大模型推理侧继续有效。

GPT-o1的推出没有引起像年初Sora那么大的反响,高雪峰认为,这是圈内和圈外的区别。Sora的效果更直接,GPT-o1并不那么直观,但自从GPT-o1这一模型推出来之后,验证了整个行业的发展趋势。在推理与概率预测的技术体系上,已经朝着更加综合和平衡的方向上转移了。

“今年很明显,已经不去从千亿模型到万亿模型到十万亿模型的智能涌现发展了,而是回过头来改进推理模型。很多人会觉得这件事,无外乎是原来AlphaGO 这种推理能力的剪枝提升,做一些优化,技术上没有太大的创新,但是在我看来这是一个方向性的变化。”高雪峰表示,之前有人坚持Transformer 的Scaling law是未来,是一切,现在不会有人这么说了,接下来要做推理能力、强化学习方向的Scaling law。

行业有类似看法的人不在少数。月之暗面创始人杨植麟在11月的媒体交流中提到,大模型的范式会产生一些变化,从原来的“next-token prediction”(预测下一个词)到强化学习,让AI具备思考的能力。

“今天Scale得差不多的时候,会发现再加更多的算力,并不一定能直接解决问题,核心是没有高质量的数据,几十G的Token是人类互联网积累了20多年的上限。这个时候要做的事情,是通过算法的改变绕过瓶颈。”杨植麟表示。

现在整个行业遇到的问题是,加更多的卡也不一定能看到直接的提升,在杨植麟看来,“好算法就是与Scaling做朋友,如果算法能够释放Scaling的潜力,它就会持续变得更好。”因此,强化学习是接下来很重要的一个趋势,它改变大模型学习的方式,让其能持续“Scale”。

有大模型厂商研发人员告诉记者,年内值得关注的新路线就是强化学习技术下的Scaling Law和推理阶段的Scaling Law,也就是o1提出来的路线。现在业界都尝试在推理阶段用更多Token来搜寻更复杂问题的答案,大家都已经知道思路了,只不过还做不到OpenAI那么好的效果,也还不知道这条新路线后面的天花板有多高。

抛开技术迭代不谈,推理模型这一方向也是行业大势所趋。在复杂行业的落地中,大模型的幻觉和思维逻辑能力一直是一个阻碍,包括此前大模型分不出“9.9和9.11哪个大”这一典型问题。行业认为,AI一定要具备可解释性、推理能力,再加上尽可能地减少幻觉,叠加数据的能力才能解决生产力的问题,这是做推理模型的必要性。

追随OpenAI的脚步,对标o1系列,国内也有众多厂商和机构在年底发布数学推理模型,包括阿里通义、DeepSeek、月之暗面、上海人工智能实验室等。

上海人工智能实验室青年科学家陈恺此前在接受第一财经采访时表示,强大的推理能力是迈向通用人工智能的重要基础。“目前大模型的头部机构都有研发和发布推理模型的计划,因为推理能力是大模型智能水平的重要体现,也是面向复杂应用场景的必备能力。”

在具体应用上,一般的大模型可以在读完一份财报之后帮忙整理其中的关键信息,如果是具备强推理能力的模型,未来就可以像分析师一样帮助分析财报中的数据,给出合理的研究和预测。

在强调做数学推理模型的重要性时,杨植麟有个理性又感性的表达,他引用物理学家伽利略的一句话表示,“宇宙是由数学这门语言书写而成的”,宇宙的很多规律是通过数学来刻画的,数学是宇宙的基石。这种遥远的相似性或许有助于迈向通用人工智能。

但另一个思考在于,推理模型也可能出现问题。360集团创始人周鸿祎就指出, OpenAI用强化学习、思维链慢思考的方式做o1,“但慢思考也有问题,当你发现它跨了一个专业学科后(表现不一样),o1解数学、物理题可以,造航空发动机不行。”

周鸿祎的判断是,OpenAI的这条路长期看目标正确,但这像“造原子弹”,只有把大模型变成“茶叶蛋”才能走进千行百业,引发工业革命。同时,通用AGI可能也是伪命题,AI要再进化就要学习人类掌握的独特的知识,走专业化的道路。

今年“找钉子”

年初有一个说法是,2024年是AI落地的元年,高雪峰不完全认可这一观点,此前已经有很多AI图片生成、AI换脸等应用出现,他认为,这些都是生成式人工智能的落地体现。

“我觉得不是 AI 落地元年,而是行业精准场景和人工智能技术融合的元年。”这一年,高雪峰走访了各个大的国央企,看到越来越多企业都在干这件事,企业在推动真正能够带来生产力提升的场景,每个企业都在研究,哪些场景能落地,去调研、尝试,再推广、反馈和改进。

如果说去年厂商在不断迭代大模型是“造锤子”,今年行业更重要的是“找准钉子”。

枫清科技是企业级AI平台型的初创公司,高雪峰因为看到了生成式AI迭代过程中基础层的机会,从阿里云出走创业。枫清科技对接的主要是大B端的客户,去年他们接触的大企业还在观望,随便做一些尝试。但今年,愿意洽谈合作的客户更多了,高雪峰对记者提到,有头部央企与枫清科技有较为频繁地接触,至少有两三家有合同已签约落地。

综合枫清科技与国央企的合作经验,高雪峰观察到,企业正在经历从以模型为中心向Data-Centric(以数据为中心)的重要转型,更多去处理本地的数据,将数据转化为知识,再结合模型能力赋能 AI 应用。

今年高雪峰有一个明显的感受是,聊一个大型国央企基本上会对他们感兴趣,“相比去年,今年已经不用先谈预算了,用两个星期尝试了一下效果,比原来要好,就可以深入场景讨论平台落地具体的规划。”虽然时间周期也长,但是很明显的是,成功率很高。

站在大模型开发商的角度,刘华发现,今年大模型应用拓宽了。

刘华表示,去年国内就有AI办公产品,能写文章、做PPT,如果按满分100分打分,这种产品创作的文学作品虽然不到90分,但也有70分了。此外,今年大模型还从一个只会写文章的“文科生”变成能力比较全面的模型,以公司的语音服务产品为例,该产品在中文环境下已能提供如同GPT-4o一般的即时服务。从B端和C端看,大模型也已经催生了一些比较好的产品。

刘华以公司大模型目前的应用场景举例:音乐、视频模型已被用于制作广告;与保险公司合作的智能体能在客户来电时把保单赔付流程走完;AI药师助手能在医药零售场景提供用药建议;公司的大模型驱动了联想AI PC的联想小天语音;C端的AI内容社区产品在国外已有付费会员。

不过,从演进的进程看,目前的大模型并非终局。刘华说,大模型对社会的影响可以类比为当年电力、蒸汽机发明的影响,与电力、蒸汽机相似,这波大模型技术迭代、演进并非一两年内就能完成。

在这些场景落地背后,今年还有两个重要的助推因素,一个是年中大模型的Token价格战,另一个是两会期间“AI+”首次写进《政府工作报告》。

今年5月,以幻方量化、智谱开篇,首先将模型价格下降数倍,随后云厂商加入迅速掀起价格战。字节豆包主力模型将其在企业市场的定价做到0.0008元/千tokens,喊出较行业平均价格便宜99.3%。“通义千问9款模型齐降价,击穿全球底价”,彼时阿里云宣布。

对于大模型降价,有行业人士觉得这是恶性竞争,但从客观结果来看,这降低了用户对于大模型的使用成本,带动了更多应用的落地。

“从年初几十元每百万token的定价,到年中价格的竞争潮下,很多主力模型的价格可以降到1元每百万token的水平。再到今年9月可以看到进一步下降,甚至有一些降到了3毛钱百万token。”张维璇观察到。

高雪峰认为,这一价格战有利于大的 AI 场景生态的发展,因为大家更容易运用公共云的资源,可以做更丰富的场景尝试,“很多人用得起,可以开始自己打造一些场景化应用”。

另一方面,从高雪峰的角度看来,更大的事件是“AI+”写进《政府工作报告》,这尚属首次。在谈到“科技创新实现新的突破”时,报告中提到“人工智能、量子技术等前沿领域创新成果不断涌现”,要深化大数据、人工智能等研发应用,开展“人工智能+”行动。

“这代表了各个行业的龙头企业一定要做 AI 的转型,包括民企,央企和国企,要把‘AI+’和场景连接在一起,对我们来说就是一个巨大的机会,因为我们就是干这件事,于是我们开始将注意力集中到大B的场景建设上。”高雪峰对记者表示。

瑞银证券在年初发布了一份关于中国AI行业的大报告,在其中他们认为中国AI长期发展的潜力是被低估的。中国AI应用的渗透率有望从明年起加速,由AI带动的软件、云服务市场,可能在未来五年预估的复合增长率可以达到35%以上。

这一观点背后的支撑在于,从模型性能方面,基于一些公开测试集benchmark的评分来看,中国的国产大模型厂商的性能水平已经接近了GPT-4的水平,在一些垂直应用的领域,如数学、AI Agent等能力上,很多大模型厂商通过监督微调、强化学习等等方式,就算不增加大算力的前提下,大模型的准确度也可以得到不断地加强。同时中国有非常活跃的AI开源社区、开发者,还有广泛的应用场景,这些都在不断帮助国内大模型性能日拱一卒。

张维璇还分享了一个数据是,瑞银观察到中国前十大C端的AI移动应用月活加起来超过了一个亿,在她看来,这已经是很大的月活体量。从6月Token价格下降开始计算,大模型的API日均调用量到现在增长了大概8倍,“确实看到中国AI的使用率在不断地提高”。

站在年底,怎么看明年AI行业的机会?

据瑞银的分析,过去AI最先带动是基础设施层面的公司,包括AI加速卡、GPU、存储、网络通信设备、云的提供商等,接下来他们认为,可能PaaS层(平台层)很多工具的软件厂商会陆续受益,包括一些数据的中台、数据工具的提供商、AI应用的性能检测、安全的服务提供商等。

张维璇认为,上述这些环节的企业可能会受益于AI从大模型训练往推理端、应用端走的过程。从美国相关上市公司最新财报看到,这些公司AI收入贡献明显获得了加速。

编辑/樊宏伟

最新评论