北京青年报

腾讯机器狗学会玩对抗游戏智能“赛博宠物”离大众还有多远？

北京青年报客户端 2023-06-15 11:02

6月14日，腾讯Robotics X机器人实验室公布了智能体研究的最新进展，通过将前沿的预训练AI模型和强化学习技术应用到机器人控制领域，让机器狗 Max 的灵活性和自主决策能力得到大幅提升。

据介绍，腾讯Robotics X机器人实验室通过引入预训练模型和强化学习技术，可以让机器狗分阶段进行学习，有效的将不同阶段的技能、知识积累并存储下来，让机器人在解决新的复杂任务时，不必重新学习，而是可以复用已经学会的姿态、环境感知、策略规划多个层面的知识，进行“举一反三”，灵活应对复杂环境。

腾讯Robotics X机器人实验室和腾讯游戏合作，用游戏技术提升了仿真引擎的准确和高效，同时游戏制作和研发过程中积累了多元的动捕素材。这些技术以及数据对基于物理仿真的智能体训练以及真实世界机器人策略部署起到了一定的辅助作用。

利用预训练阶段获取的神经网络，机器狗才有前提和机会来聚焦解决最上层的策略学习问题，最终具备端到端解决复杂的任务的能力。最后会附加的网络会获取与复杂任务有关的信息，例如在游戏中，获取对手的信息、旗子的信息。此外，通过综合分析所有信息，负责策略学习的神经网络会学习出针对任务的高阶策略，例如往哪个方向跑动，预判对手的行为来决定是否继续追逐等等。

为了测试Max所掌握的这些新技能，研究员受到障碍追逐比赛“World Chase Tag“的启发，设计了一个双狗障碍追逐的游戏。从这个游戏看来，在基于预训练好的模型下，机器狗通过深度强化学习，已经具备一定的推理和决策能力。比如，当追击者意识到自己在躲避者碰到旗子之前已经无法追上它的时候，追击者就会放弃追击，而是在远离躲避者的位置徘徊，目的是为了等待下一个重置的旗子出现。另外，当追击者即将抓到躲避者的最后时刻，它喜欢跳起来向着躲避者做出一个"扑"的动作，非常类似动物捕捉猎物时候的行为，或者躲避者在快要接触旗子的时候也会表现出同样的行为。这些都是机器狗为了确保自己的胜利采取的主动加速措施。

据介绍，游戏中机器狗的所有控制策略都是神经网络策略，在仿真中进行学习并通过zero-shot transfer(零调整迁移），让神经网络模拟人类的推理方式，来识别从未见过的新事物，并把这些知识部署到真实机器狗上。例如下图所示，机器狗在预训练模型中学会的躲避障碍物的知识，被用在游戏中，即使带有障碍物的场景并未在Chase Tag Game的虚拟世界进行训练（虚拟世界中仅训练了平地下的游戏场景），机器狗也能顺利完成任务。

让机器狗像人和动物一样灵活且稳定的运动，是机器人研究领域长期追求的目标，深度学习技术的不断进步，使得让机器通过“学习”来掌握相关能力，学会应对复杂多变的环境变得可行。

文/北京青年报记者温婧
编辑/田野