北京青年报

大模型狂奔一年，该从追赶GPT-4的目标中走出来了

第一财经 2024-02-07 13:34

“如果说2023年大家可能都是朝着一个目标，就是去追赶GPT-3.5或者GPT-4的话，未来不同的机构、企业和团队会朝着不同的方向去发展，更加多样化。”上海人工智能实验室领军科学家林达华表示。

2023年是属于大模型的一年，OpenAI发布的GPT-4成为科技界的一个里程碑，其接近人类的智能让世界为之瞩目，而对于国内的大模型来说，2023年是跟随并追赶GPT-4的一年，《北京市人工智能行业大模型创新应用白皮书（2023年）》显示，我国10亿参数规模以上的大模型已超过200个，百模大战之下，企业期待复制“大力出奇迹”。

在交流中行业人士认为，过去一年国内大模型让人印象深刻的是“追得很快”，与GPT-4的距离有了明显的缩小，但应谨慎乐观的点在于OpenAI也在迭代。不过，国内大模型该从追赶GPT-4的目标中走出来了，其能力也到了一定高度，具备了向某些行业渗透的条件。

一方面，会有一些企业、机构继续寻求基础技术提升，另一方面，会有更多参与者探索向行业落地，“我相信这些探索能够将大模型从去年能力的展现，变成真正能变革生产力的一个工具，这两方面今年都会有巨大的竞争。”林达华说。

展望2024，ChatGPT 核心研发科学家、前 OpenAI 研究员肯尼斯·斯坦利和乔尔·雷曼稍显冷静，他们认为2024可能会面对的一个很大的问题是，人工智能会延续之前的发展势头，还是出现一些减缓，“2024年可能并不像我们期望的那样具有划时代的意义”。

“追得还是蛮快”

对国内大模型来说，追赶OpenAI是过去一年最大的命题，也是行业内外都在关注的一个话题。

站在当下来看，至少在对标ChatGPT-3.5的版本上，国内大模型接下了这个挑战。在对谈中第一财经问及过去一年国内大模型的突破，林达华表示，“印象深刻的进步就是追得还是蛮快。”

“ChatGPT刚出来时，觉得我们离3.5的版本有较大的距离，但是看到2023年下半年发布的模型，尤其是一些表现不错的头部模型，在我们主客观以及公开的评测中都对ChatGPT-3.5有了比较全面的超越。”林达华发现，国内的厂商和研究机构追赶ChatGPT的周期，比他一年前的预期更快，没到一年基本已达到ChatGPT-3.5的水平。

当然，目前国内大模型还未完全追赶上GPT-4，但林达华认为，我们的距离有了较明显的缩小，“因为GPT-4是一个相对固定的点，不断往这边追，距离一定是越来越小的。总体来看，国内最新发布的一些模型表现让人有惊喜，看起来事情会比原来预期会更乐观一些。”

在国内大模型与GPT-4的客观比较上，上海人工智能实验室旗下大模型评测体系司南（OpenCompass2.0）近日发布了对部分主流大模型的评测结果，可以作为一个参考。

在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，达到61.8分的及格水平。另外，分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新发布的模型具有较为均衡和全面的性能。

OpenCompass2.0评测的大语言模型总榜

根据评测结果，推理、数学、代码、智能体是国内大模型的短板，但在主观评测中，国内模型在中文场景下相比海外模型具有优势，在中文语言理解、中文知识和中文创作上，国内商业模型相比GPT-4 Turbo具有极强的竞争力。

不过，在追赶过程中，GPT-4并非一成不变，“OpenAI的能力也在进步，后续会发布的GPT-5也一定会超越前一代，不会完全停下来等待大家追赶，国内和国外的模型都需要往前去拓展自己的能力。”林达华表示。

复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华同样对第一财经表示，如果限定一下，如在两三年做到 GPT-3.5的版本和GPT-4的版本，是早晚能追上的事，但问题是对方也在迭代。他表示，“我们总体上还是属于跟随OpenAI的阶段，即便从谷歌发布的新的大模型来看，要追赶OpenAI也是很不容易的一件事，尤其是对于通用人工智能来说。”

“我们一直担心的一个问题是，在通用人工智能这个赛道上只有第一没有第二，因为它一旦突破了这个拐点，后面的增长是指数级的，而且有明显的先发优势，可以更快利用真实用户的反馈，跑在一个快速迭代的道路上，且它已经形成了一定程度的商业闭环。”肖仰华说。

天工智能联席CEO兼昆仑万维2050全球研究院院长颜水成此前对第一财经表示，在国内以前研究大模型的团队相对较少，主要原因是对算力资源的需求非常巨大而商业化前景不是非常明朗，2023年由于ChatGPT的成熟让大家感觉AGI的时代已经来临，国内在大模型上的投入产生了巨大的变化。

目前国内通用大模型的发展已经取得了一定的进展，但与OpenAI等国际领先企业相比，仍存在一定的差距，“OpenAI在自然语言处理领域的研究和应用已经积累了多年的经验和技术优势，其团队成员中也拥有众多的顶尖科学家和工程师。相比之下，国内的大模型研究和应用还比较年轻，需要更多的时间和努力来追赶。”颜水成说。

“梦幻般的一年”

抛开追赶不谈，大模型行业在过去一年也有诸多技术进展。

“自ChatGPT在2022年底上线以来，对所有的行业从业人员来说，2023年都是梦幻般的一年，”肖仰华感慨，“这一年里，ChatGPT在不到2个月里突破了1亿的月活，似乎大家一觉醒来就会见证一些新的技术到来。”

“我们IT研发人员，过去一年每天早晨都是一个新的开始，醒来最担心的一件事是又发生了什么新的技术变革，饭碗还能不能端得稳，很多新技术的名词层出不穷，我们还没有弄明白一个新概念是怎么回事，另外一个更新的技术又冒出来了，我们似乎处于前所未有的技术加速发展的时代，唯一不变的是变化本身。”肖仰华说。

林达华认为，过去一年大模型有几个关键的进展，一方面是3月初GPT-4的出现，让大家看到大模型不仅仅是一个一本正经胡说八道的聊天工具，而是真正有用。另一方面，函数工具调用的能力、代码解释能力的提升，让大家看到了大模型向现实场景衔接的可能性和技术途径，同时模型推理速度、性能的急剧提升，对于降低落地门槛也非常重要。

在肖仰华看来，大模型过去一年最明显的进步是上下文窗口的文本长度限制有了很大的增长，从2k-4k提升到了128k，这意味着大模型能够处理更大范围的文本，更好地理解长篇文章或对话，使其在各种应用中更加有用。

在2020年的GPT-3模型中，上下文窗口的文本长度限制约为2k，在GPT-3.5中增加到4k。据OpenAI给出的参考，1k的文本单元(token)大约可以有750 个英文单词或者 500个左右的汉字及标点。

在2023年更新的GPT-4中，大模型的文本容量限制提升到了32k，记忆长度是以往的8倍，而2023年11月更新的GPT-4 turbo版已能够接收128k的输入，基本相当于10万字的小说长度，“也就是说现在整本书丢给大模型，它基本就能理解，不需要像以前要把它分成一段一段地丢进去。”肖仰华介绍。

国内大模型目前最大的文本长度已经来到200k。2023年11月大模型初创公司零一万物发布的模型Yi-34B，以及 2024年1月上海人工智能实验室与商汤科技联合香港中文大学和复旦大学发布大语言模型书⽣·浦语2.0（InternLM2），都支持200k的长语境输入。

“大模型本身所承载的是固定的记忆，但真正处理很多事情的时候，需要短期记忆，这段短期记忆不在其知识体系里，因此模型能够承载更多的长文交互信息，对于它的落地很有用。”林达华介绍，有了长语境交互，大模型能够读几百页的财报，将里面一些非常细致的信息精准提取出来形成摘要，或者听一场几个小时的会议转录，并将会议的关键信息摘取出来。

在技术上，大模型在多模态和数据的理解方面能力显著增长，2022年底的ChatGPT主要还是以文本理解为主进行对话，但今天的大模型都聚焦于多模态的理解，“自然语言模型只能看懂语言，而多模态模型可以处理多种媒体数据，并将他们整合到统一的语义空间之中，如GPT-4可以进行看图作答、数据推理、分析图表等，GPT-4的多模态能力必将催生更加广泛的下游应用。”肖仰华说。

另外很值得关注的一个技术进步是成本，大模型最终要落地非常关键一件事是成本可控，以尽可能低的成本达到相同的效果。在2023年11月的开发者大会上，Open AI宣布包括GPT-4 Turbo在内全系列模型降价，输入成本降低了三分之二，每输入1k tokens的价格由0.03美元下降至0.01美元。对于开发者来说，使用 GPT-4的成本大幅降低。

肖仰华认为，GPT-4或许已经在成本控制技术上有所进步，业内猜测OpenAI用了大小模型协同提高了效率。“大模型本身模型越大使用成本越高，成本控制一个很基本的思想是，绝大部分真实的应用场景并不需要一个超大模型来服务，大部分问题可能是简单的，相对规模小一点、成本低一点的模型就已经能解决问题，没必要‘杀鸡用牛刀’。”

林达华表示，实际上目前AI先进算力的租用成本一直高居不下，但随着各种计算技术的优化，计算效率会持续提升，数据效率也会得到优化，带来效率的提升和成本的下降。

“把大模型越做越大，投入在目前的阶段肯定是增加的，但是应用方面，我们看到7B的甚至现在有一些更小的3B的大模型，也能在垂直领域带来一个较为实用的水平，那大家在应用领域有可能会选择体量尺寸更小的模型做一些具体的事。”林达华说，所有这些进步都会加快大模型在实际场景中的落地。

把“炼丹”变成科学

“2024年要面对一个很大的问题是，人工智能会延续之前的发展势头，还是出现一些减缓。虽然行业增长放缓会引起人们的担忧，但这是可能发生的，这取决于研究中的未知因素。”在一场与复旦大学管理学院教授的对话中肯尼斯表示。

虽然过去一年大模型发展迅速，取得诸多进展，但在行业人士看来，目前的大模型离真正比肩人类的、可信的通用人工智能还有距离，无论是国内的模型还是GPT-4。

”过去人工智能兴起核心的一点是大力出奇迹，堆更多的数据、用更多的算力，但只靠规模、只靠数据解决不了幻觉、可信和可控的问题。”上海人工智能实验室主任助理、领军科学家乔宇认为。

大模型目前存在一个重要的短板是复杂推理能力，最强如GPT-4 Turbo，即便已领先于国内的大模型，在这方面仍有很大的提升空间。复杂推理的能力关乎可靠性和准确性，是大模型在金融、工业等场景落地需要的关键能力。

随着大模型进入商用，若要分析一家公司的财报、或是工业领域去分析一些技术文档，数学和计算能力就会成为一个关键点。“现在很多大模型的应用场景是客服、聊天等等，数学能力的影响可能不大，但如果是比较严肃的商业场合，模型‘一本正经地胡说八道’，将很难真正去落地。”林达华表示。

在未来，林达华认为，大模型的训练不能单纯只依靠互联网数据的收集和灌注，而要更体系地构建。在复杂推理上关键是要构造很多过程性的内容，从互联网上很难去大量获取这些数据，“未来在模型的训练数据上面，尤其是突破更高层次的智能的过程中，会越来越依赖构造型的数据，不是直接爬取下来的数据。”林达华认为。

肖仰华同样提到，大模型的炼制过程和调教一个行业专家高度相似，整个过程尤其要注重高质量指令数据的收集，高质量指令数据可以提高底座大模型的价值，因此把大模型整个炼制过程变成科学的尤其重要。

“现在大模型的炼制非常像传统的炼金术炼丹，把所有的数据往服务器一丢，祈祷它出好的效果，实际上整个过程是不透明的，我们要把它变成透明科学的，现在仍然需要努力，其中很重要的是对语料做精准的刻画，我们到底用什么样的语料能够炼出什么样的能力，我们要建立之间的因果关系，这样才有可能真正把大模型从‘炼金术’变成科学，这个过程中跨学科研究尤为重要。”肖仰华说。

林达华认为，未来会有顶尖的研究机构沿着更强的技术手段，如扩大规模、用更好的数据，或改进训练的方法、模型架构，逐渐向通用人工智能靠近，这是一个核心技术层面的突破，也是顶尖研究机构的使命。

另一方面，虽然我们离通用人工智能还有距离，但这并不妨碍行业去探索落地。“人类要做的事分了不同的难度等级，现在已经打通第一关、第二关了，相关的初级应用就可以去做了。”林达华认为，大模型的能力已经到了一定的高度，具备了逐渐向某些行业渗透的条件。

在1月的达沃斯论坛上，OpenAI CEO山姆·奥尔特曼就表示，若GPT-4目前只能完成人类任务的10%，那么GPT-5预计能处理15%至20%的任务。林达华认为，在大模型能将普通简单的问题回答得非常好的情况下，有5%-10%的应用场景已经能开始渗透，随着未来第三关的打通，或许能够解锁更多应用。

在落地场景上，林达华认为，从大模型的技术规律来说，会从对准确率、可靠性的要求由低到高的顺序去渗透。“先从对于准确性要求没那么高的行业开始，如第一落地是聊天，然后慢慢是文章创作，但是接下来会朝着提升生产力的角度，如安装在手机里当助理，最后落地的是对于准确度可靠性要求极高的，如做手术或者操作精密仪器。”

百花齐放的生态

据《北京市人工智能行业大模型创新应用白皮书（2023年）》，截至2023年10月，我国10亿参数规模以上的大模型厂商及高校院所共计254家，分布于20余个省市/地区。过去一年，自主研发大模型的企业包括互联网大厂、AI领域的厂商、各类初创企业以及各垂直行业的企业、机构等。

“现在我们正经历大规模的爆炸和重组，很多人涌入人工智能领域，我从没想过他们会和人工智能有什么样的联系，但好像突然之间每个人都与人工智能有关，这是一种过度饱和的现象。”作为OpenAI前研究员，肯尼斯提醒，加入已经形成的浪潮是有危险的。

但肯尼斯同时表示，如果个人真的非常擅长这个领域，那可能是好事，因为很明显这是一个有利可图的领域，“但如果你并不确信自己就是世界上最优秀的，那可能非常危险，因为世界上最优秀的人一定会和你竞争。”

在肖仰华看来，未来作为基础设施的通用大模型注定只能留下头部几家，通用大模型如同电能、通信网络，一旦能落地千行百业，很容易形成头部效应，“从这个意义上来讲，（大模型）一定是往头部集中，因为只有往头部集中才能集中力量做出代表国家水平的大模型，如果资源精力很分散，那势必就变成一堆小炼钢炉。”

不过，从短期来看，肖仰华认为，不必一上来就整合行业，这也是一个自发的市场过程，“大家先各自‘炼’，到最后通过资本整合，逐步向一些有优势的大模型去汇聚和集中，这有可能是未来一条发展的基本路径。”

2023年中，对于国内的百模大战，就有声音认为这会是资源的浪费，彼时衔远科技CEO周伯文认为，良性竞争是发展的助推器。如果只有一个通用大模型思路，就没有办法看到不同技术方向的迭代与对比，商业应用、学术创新和技术生态，都需要多元化。商汤科技智能产业研究院院长田丰也对第一财经提到，“必须要通过竞争才能出来一个更优秀的大模型”。

从大模型的几个要素来看，肖仰华认为，企业机构要想胜出，真正核心的壁垒在于算力和数据，应用生态也是一个优势。

“首先看谁优先布局了高端算力，因为高端算力的可用性是第一个资源因素，其次看能否汇聚尽可能多的高质量数据，尤其是一些有独特价值的数据，是否有企业在这方面有它的独特优势，都是判断玩家潜力的一些维度。第三是应用的生态，有一些企业本身应用生态很完善，这也会反向促进技术模型的发展。”肖仰华说。

不过，虽然将来几个底座大模型可能往头部企业汇聚，但大模型整个赛道非常宽广，肖仰华表示，不求通用大模型做到最好，行业做得最好也是一种出路。

“大部分的企业家都会选择一个独特的赛道，做到国内第一或世界第一，而不会都去挤底座，”肖仰华发现，坚持在做底座的大模型目前看来也不多，“因为底座通用大模型的变现链条很长，过程也比较艰辛，长期得不到市场的正面反馈的话，这种研发也很难持续。”

“大模型可以做通用大模型，也可以做行业大模型、场景大模型，我们没有必要在别人的赛道上去跟风。”肖仰华认为，国内制造业发达，制造领域最终可能也会有多个专业大模型，有些大模型要懂机械原理，有些要懂化合物，这些专业大模型都是将来有机会的方向。

“其实我们当时最担心的是为了跟风ChatGPT而错失下一个‘GPT’，大模型是一个百花齐放的生态，是很多元化的，我们不能因为跟风而错失了下一个机会。”肖仰华说。

编辑/樊宏伟

打开北京青年报APP阅读原文