北京青年报

“世界模型”究竟是什么？会成为人工智能的下一个前沿领域吗？

澎湃新闻 2024-11-04 10:28

近年来，人工智能（AI）领域涌现出一种被称为“世界模型”（World Models）或“世界模拟器”的新概念，被一些行内人士视为AI的下一个重大前沿。AI领域的领军人物李飞飞创立的World Labs（世界实验室）已筹集了2.3亿美元资金，致力于构建“大型世界模型”（LWM）；与此同时，谷歌DeepMind也聘请了OpenAI视频生成器Sora的创造者之一，参与“世界模拟器”的研究。

什么是“世界模型”？近日，科技媒体TechCrunch的高级记者凯尔·威格斯（Kyle Wiggers）撰文，梳理了关于“世界模型”的一系列问题，以下是澎湃科技（www.thepaper.cn）编译。

什么是世界模型？

世界模型的灵感源于人类自然形成的世界心智模型。我们通过感官获取的抽象信息在大脑中被转化为对周围世界的具象理解；这些“模型”早在人类开始研究AI之前就已存在。基于这些模型，我们的大脑对世界进行预测，从而影响我们的感知和行动。

AI研究人员大卫·哈（David Ha）和尤尔根·施米德胡伯（Jürgen Schmidhuber）以棒球击球手为例，论述了击球手只有几毫秒的时间决定如何挥棒，这比视觉信号传递到大脑的时间还短。他们之所以能击中时速160公里的快速球，是因为他们能本能地预测球的位置。

两位研究人员写道：“对于职业选手来说，这一切都是在潜意识中完成的。他们的肌肉会反射性地在正确的时间和位置挥棒，与其内在心智模型的预测一致。他们可以快速根据对未来的预测而采取行动，但无需有意识地推演可能的未来情景以制定计划。”

正是这种世界心智模型的潜意识推理能力，让一些科技研究者认为，世界模型是实现人类级别智能的前提。

世界模型有哪些应用潜力？

尽管这个概念已经存在了几十年，世界模型最近因其在生成式视频领域的应用而备受关注。目前，大多数AI生成的视频都会陷入“恐怖谷”现象，观看时间稍长就会出现画面崩坏，如四肢扭曲或融合。

传统的生成式模型可能能够准确预测篮球会弹跳，但并不真正理解其中的原因，就像大型语言模型实际上是基于神经网络的概率推理，给出最可能符合读者预期的答案，而非真正理解词语和短语背后的意义。然而，具有基本物理认知的世界模型将更善于展现“篮球的真实弹跳”。

为了实现这种洞察力，世界模型需要在大量的照片、音频、视频和文本数据上进行训练，旨在创建对世界运作方式的内部表征，并具备推理行动后果的能力。

Snap前AI主管、现Higgsfield公司CEO亚历克斯·马什拉博夫（Alex Mashrabov）表示：“观众期望他们观看的世界与现实相似。如果一根羽毛以铁砧的重量下落，或者保龄球飞上数百英尺的高空，这会让观众出戏。有了强大的世界模型，创作者就无需定义每个物体的运动方式——这既繁琐又低效——因为模型将能够自行理解原理。”

然而，改进视频生成只是世界模型的冰山一角。包括Meta首席AI科学家杨立昆（Yann LeCun）在内的研究人员认为，这些模型未来可用于数字和物理领域的复杂预测和规划。

在今年早些时候的一次演讲中，杨立昆描述了世界模型如何通过推理来实现目标。一个具有基础“世界”表示（例如一段脏房间的视频）的模型，给定一个目标（干净的房间），可以推导出一系列行动（使用吸尘器、清洗餐具、倒垃圾）来实现目标。这并非因为它观察到了这种模式，而是因为它在更深层次上理解了事物如何从脏到净。

“我们需要能够理解世界的机器；具备记忆、直觉和常识的机器——能够像人类一样推理和规划的机器，”杨立昆表示。“尽管你可能听到一些最热情之人的吹嘘，但当前的人工智能系统并不具备这些能力。”

虽然杨立昆估计我们距离他设想的世界模型至少还有十年的时间，但当今的世界模型已经显示出其作为基本物理模拟器的前景。

OpenAI 在一篇博客中认为 Sora 是一个世界模型，可以模拟画家在画布上留下画笔笔触等动作。像 Sora 这样的模型——以及 Sora 本身——也可以有效地模拟视频游戏。例如，Sora 可以渲染类似 Minecraft 的UI和游戏世界。

World Labs 联合创始人贾斯汀·约翰逊（Justin Johnson）在a16z播客的一集中表示，未来世界模型可能能够按需生成3D世界，用于游戏、虚拟摄影等。

“我们已经有能力创建虚拟的交互式世界，但这需要花费数亿美元和大量的开发时间，”约翰逊表示，“‘世界模型’不仅可以让用户获得图片或视频片段，还可以获得一个模拟效果完备、充满活力的交互式 3D 世界。”

实现世界模型面临哪些技术挑战？

尽管这一概念令人振奋，但仍有许多技术挑战亟待解决。与目前用于生成式模型的计算量相比，训练和运行世界模型需要庞大的算力。虽然一些最新的语言模型可以在现代智能手机上运行，但Sora（多少算一种早期世界模型）需要数千个GPU来训练和运行，尤其是在其使用变得普及的情况下。

世界模型和所有AI模型一样，也会产生幻觉，并内化训练数据中的偏见。一个主要由欧洲城市晴天视频训练的世界模型，可能难以理解或正确描绘韩国城市的雪景。

亚历克斯·马什拉博夫指出，训练数据的匮乏可能会加剧这些问题。“我们已经看到模型在生成某种类型或种族的人物时受到限制，”他说。“世界模型的训练数据必须足够广泛，以涵盖多样化的情景，同时也要足够具体，使AI能够深入理解这些情景的细微差别。”

AI初创公司Runway的CEO克里斯托瓦尔·瓦伦苏埃拉（Cristóbal Valenzuela）在最近的一篇文章中表示，数据和工程问题阻碍了当前模型准确捕捉世界中生物（如人类和动物）行为的能力。“模型需要生成一致的环境地图，”他说，“并具备在这些环境中导航和互动的能力。”

世界模型能为具身智能提供技术基础

如果所有主要障碍都被克服，亚历克斯·马什拉博夫认为，世界模型可以“更稳定地”将AI与现实世界连接起来，不仅在虚拟世界生成方面，而且也在机器人技术和AI决策方面取得突破。

这也可能催生更强大的机器人。如今的机器人在功能上受到限制，因为它们缺乏对周围现实世界（或自身身体）的意识。世界模型可以为它们提供这种意识，至少在一定程度上可以。

“有了先进的世界模型，AI可以对其所处的任何情境形成自身的理解，”他说，“并开始推理出可能的解决方案。”

世界模型能够为人工智能提供理解真实的三维物理世界的能力，使人形机器人真正感知真实世界，对具身智能的实现具有重大意义。

编辑/范辉