北京青年报

黄仁勋预言步入现实谷歌展示实时游戏生成AI模型GameNGen

财联社 2024-08-30 11:29

由AI模型实时生成游戏的时代，已经悄然来到了我们身边。

本周来自谷歌公司和特拉维夫大学的研究人员发表了一篇名为《Diffusion模型是实时游戏引擎》的论文，介绍了计算机历史上第一个完全由神经网络模型支持的游戏引擎GameNGen。

来源：Github

研究人员在论文中写道：“今天，电子游戏是由人类编程的，GameNGen是游戏引擎新范式的部分概念验证——游戏将会变成神经模型的权重，而不是代码行。”

换一种更容易理解的说法，目前所有的电子游戏都是预先设计好的，开发者需要编写代码、准备游戏文本和贴图模型，然后放置在游戏地图上——游戏画面的渲染和状态更新取决于手动编辑的规则。但GameNGen模型打开了一个完全不同的思路：使用AI生成模型，根据玩家的动作和反应，实时演算和生成游戏画面。

在演示中，研究人员通过机器学习，让GameNGen模型成功实时生成90时代的第一人称射击游戏《毁灭战士》。视频显示，在AI生成的游戏中，玩家可以在场景中转弯、发射武器，同时能够准确反映剩余的子弹数量、遭到攻击后的剩余血量，以及是否满足打开下一个关卡所需的条件。

来源：演示视频

需要注意的是，上面看到的一系列画面，完全是AI实时生成的图像。最新的进展也显示，AI模型继成功生成文字、图像、音频和短视频后，可能存在生成游戏场景的能力，这对逻辑性、连贯性和实时交互的要求明显高出一大截。

他们是怎么做到的？

研究团队介绍称，为了训练这个能实时生成游戏的AI，首先需要训练一个强化学习（RL）代理来玩游戏，然后使用录制下来的片段来训练生成扩散模型，根据过去的画面和玩家动作来预测接下来的画面，这也是为什么AI生成的游戏能够展现生命值和弹药的变化，以及敌人受到攻击的动画。

更大的挑战在于让AI生成的图像保持时间和逻辑上的连贯性。为了减轻推理过程中的自回归漂移，研究人员在训练期间通过向编码帧添加高斯噪声破坏上下文帧，允许AI更正前几帧中采样的信息，从而长时间保持图像生成的稳定性。

来源：研究论文

研究人员披露，跑这个模型只需要单个TPU（谷歌自研AI处理器），就能实现每秒20帧的生成速度。

当然，上面这几段话也展现出GameNGen的局限性：这个AI必须依靠输入已有的游戏（或文字、图片等材料）来生成游戏。

英伟达高级研究经理&具身智能集团主管Jim Fan博士在社交媒体上评论称，GameNGen更像是一个神经辐射场（NeRF），而不是一个视频生成模型。神经辐射场通过从不同角度拍摄场景的图像，从而生成场景的3D展示。但这也意味着模型不具备泛化能力，无法“想象”新的场景。这也是GameNGen与Sora的不同点：它无法生成新的场景或交互机制。

来源：X

研究人员也在论文中提到这一点，解释称借助该技术，未来的游戏开发者将能通过“文本描述和示例图像”来创建新游戏，人们将有可能仅根据示例而不是编程技能，将一组精致的图像转化为现有游戏的新可玩关卡或角色。

黄仁勋：5-10年内出现完全由AI生成的游戏

由AI渲染来进行实时游戏并不是一个全新的想法。在今年3月发布最新一代Blackwell架构芯片时，英伟达CEO黄仁勋就曾预言，大概在5-10年内就能看到完全由AI生成的游戏。

事实上，朝着这个方向前进的不只是谷歌团队，OpenAI在今年首次发布Sora演示时，也曾展现过模拟像素游戏《我的世界》的能力。

来源：OpenAI

最新的进展，也恰好迎合了米哈游前董事长蔡浩宇近期引发热议的“劝退”言论。

蔡浩宇本周公开发声称，AIGC已经彻底改变了游戏开发，现在只需要时间让这种现象完全展开。他认为，未来只有两种游戏开发者具有继续从业的意义——前0.0001%的天才，以及99%的业务爱好者创作满足自己需求的游戏。至于剩下的“从普通到专业”的游戏开发者，大家还是趁早转行吧。

来源：社交媒体

编辑/范辉