北京青年报

李彦宏戳破大模型“跑分”假象：榜单不代表所有实力，未来模型的差距会变大

第一财经 2024-09-11 20:19

每当有新版本的大模型发布时，业界总是热衷于引用第三方榜单数据，拿自家大模型和GPT-4一起"跑个分"，声称已经在某些指标上实现了超越，以此来证明自己的大模型技术实力。

但在近日百度董事长李彦宏和内部员工的一场交流中，他捅破了大模型行业跑分的"窗户纸"。"每次新模型发布，都要和GPT-4o做比较，说我的得分已经跟它差不多了，甚至某些单项上得分已经超过它了，但这并不表明和最先进的模型就没有差距了。"

他进一步解释道，模型之间的差距是多维度的。一个维度是能力方面，不管是理解能力、生成能力、逻辑推理能力还是记忆能力等这些基本能力上的差距；另一个维度是成本方面，有些模型虽能达到同样效果，但成本高、推理速度慢，其实还是不如先进模型。

"还有就是对于测试集的over-fitting，每一个想证明自己能力的模型都会去打榜，打榜时他就要猜别人到底在测什么、哪些题我用什么样的技巧就能做对，所以从榜单或者测试集上看，你觉得能力已经很接近了，但到实际应用中还是有明显差距的。"李彦宏说。

一位大模型从业者告诉记者，李彦宏提到的测视集的over-fitting（过拟合），主要是指模型训练过程中，模型对训练数据的学习过于精细，以至于模型在训练数据上的表现非常好，但在没见过的测试数据上表现较差的现象。这通常意味着模型过于复杂，以至于它能够"记住"训练数据中的噪声和细节，但这些细节和噪声并不具有普遍性，因此，模型无法很好地推广到更多新数据上。

上述人士认为，打榜跑分确实存在局限性，例如由于评测数据集的公开性，模型可以有针对性地训练来提升排名，出现"刷榜"现象，但并非完全没有意义，榜单还是相对提供了一个量化的评估标准，帮助人们快速了解不同大模型的性能，促使大家通过竞争不断优化大模型的技术水平，也有一定宣传和推广的作用。

在李彦宏看来，"部分自媒体的炒作，再加上每个新模型发布的时候都有宣传的动力，使得大家有一种印象，认为模型之间的能力差别已经比较小了，其实真不是这样。"李彦宏说，在实际使用过程当中，百度不允许技术人员去打榜，真正衡量大模型能力，应该是在具体应用场景中，看是否能满足用户需求、产生价值增益。

而对于大模型行业常常提到的"领先12个月或者落后18个月"，他认为也没有那么重要。因为每个公司都处在完全竞争的市场环境中，不管做什么方向都有很多竞争对手。"如果你能永远保证领先对手12~18个月，那是天下无敌的，不要觉得12—18个月是很短的时间，哪怕你能保证永远领先竞争对手6个月，那就赢了，你的市场份额可能是70%，而对手可能仅为20%甚至10%的份额。"

他判断，未来大模型之间的差距可能会越来越大。因为大模型的天花板很高，现在距离理想情况还相差非常远，所以模型要不断快速迭代、更新和升级；需要能几年、十几年如一日地投入，不断满足用户需求，降本增效。

除了讨论大模型竞争还有没有壁垒，在交流中，李彦宏还提到外界对大模型有相当多的误解，包括开源闭源模型效率、AI Agent等话题。

李彦宏是闭源大模型的坚定支持者，"在大模型时代之前，大家习惯了开源意味着免费、意味着成本低。" 他解释说，比如开源的Linux，因为已经有了电脑，所以使用Linux是免费的。但这些在大模型时代不成立，大模型推理是很贵的，开源模型也不会送算力，还得自己买设备，无法实现算力的高效利用。

"效率上开源模型是不行的。" 他表示，" 闭源模型准确讲应该叫商业模型，是无数用户分摊研发成本、分摊推理用的机器资源和GPU，GPU的使用效率是最高的，百度文心大模型3.5、4.0的GPU使用率都达到了90%多。"

李彦宏分析，在教学科研等领域，开源模型是有价值的；但在商业领域，当追求的是效率、效果和最低成本时，开源模型是没有优势的。

关于大模型的应用演进方式，他也表达了自己的观点，首先出现的是Copilot，对人进行辅助；接下来是Agent智能体，有一定的自主性，能自主使用工具、反思、自我进化；这种自动化程度再发展，就会变成AI Worker，能独立完成各方面的工作。

当前，智能体已经受到越来越多的大模型公司及客户的关注，李彦宏认为，虽然有很多人看好这个发展方向，但是到今天为止，智能体还不是共识。

"智能体的门槛确实很低"，他说，很多人不知道怎么把大模型变成应用，而智能体是一个非常直接、高效、简单的方式，在模型之上构建智能体相当方便。

编辑/樊宏伟