北京青年报

让机器人解锁“托马斯全旋”，北京科学家发布首个通用运动控制框架

北京青年报客户端 2026-03-05 19:56

北京青年报记者3月5日了解到，近日，北京通用人工智能研究院联合宇树科技等机构发布OmniXtreme框架，成功让机器人学会执行包括后空翻托马斯全旋、武术踢击在内的数十种高动态“极限运动”，并在宇树机器人上实现了真实世界的高成功率部署。该框架是首个可以执行各种极限动作的通用策略，为人形机器人学习复杂运动方式带来明显提效，解决了动作保真度与可扩展性兼顾的难题。

长期以来，让机器人像人类一样灵活运动，是机器人学领域的核心追求。然而，让机器人模仿单个高难度动作如一个后空翻，已能做到非常精准，但一旦试图让机器人学会几十个风格迥异、动态复杂的动作，其学习效果就会大打折扣——控制器变得保守、平庸，在最具挑战性的动作上频频失败。

OmniXtreme框架的实现过程首先是预训练一个基于流的生成控制策略，然后针对复杂物理动力学进行“驱动感知残差强化学习”的后训练。其中，后训练这一步对于成功实现真实世界的迁移至关重要。在人形机器人的运动控制领域，研究人员长期面临一个被称为“泛化壁垒”的困境。当动作库的规模和多样性增加时，传统的统一强化学习策略往往会遭遇性能崩溃，这在高动态动作的物理部署中尤为明显。这种崩溃源于两个相互叠加的瓶颈：仿真环境中的学习瓶颈（多动作优化的梯度干扰）以及物理执行瓶颈（真实世界复杂的驱动约束）。

为了从根本上解决这一问题，研究团队提出了OmniXtreme框架。该框架将动作技能的学习与物理驱动的微调进行了巧妙的解耦，分为“基于流的可扩展预训练”与“驱动感知的残差后训练”两个核心阶段。

为了验证系统是否打破了泛化壁垒，团队设计了渐进式的压力测试。他们将训练动作集从10个逐步扩展到20个，最终扩展到50个，并使用固定的前10个动作进行统一评估。实验结果揭示了显著的差异。随着动作多样性的增加，传统从头训练的强化学习基线模型出现了严重的性能衰退，其成功率从100%暴跌至83.3%，最终滑落至73.9%。相比之下，OmniXtreme展现出了惊人的韧性，在50个动作的庞大训练集下，其对核心动作的跟踪成功率依然坚挺在93.3%。这彻底推翻了高保真度必定随着多样性增加而崩溃的固有认知。

北京通用人工智能研究院供图

文/北京青年报记者雷嘉
编辑/ 汪浩舟
签发编辑/ 马晓晴

打开北京青年报APP阅读原文