
北京青年报记者3月5日了解到,近日,北京通用人工智能研究院联合宇树科技等机构发布OmniXtreme框架,成功让机器人学会执行包括后空翻托马斯全旋、武术踢击在内的数十种高动态“极限运动”,并在宇树机器人上实现了真实世界的高成功率部署。该框架是首个可以执行各种极限动作的通用策略,为人形机器人学习复杂运动方式带来明显提效,解决了动作保真度与可扩展性兼顾的难题。
长期以来,让机器人像人类一样灵活运动,是机器人学领域的核心追求。然而,让机器人模仿单个高难度动作如一个后空翻,已能做到非常精准,但一旦试图让机器人学会几十个风格迥异、动态复杂的动作,其学习效果就会大打折扣——控制器变得保守、平庸,在最具挑战性的动作上频频失败。
OmniXtreme框架的实现过程首先是预训练一个基于流的生成控制策略,然后针对复杂物理动力学进行“驱动感知残差强化学习”的后训练。其中,后训练这一步对于成功实现真实世界的迁移至关重要。在人形机器人的运动控制领域,研究人员长期面临一个被称为“泛化壁垒”的困境。当动作库的规模和多样性增加时,传统的统一强化学习策略往往会遭遇性能崩溃,这在高动态动作的物理部署中尤为明显。这种崩溃源于两个相互叠加的瓶颈:仿真环境中的学习瓶颈(多动作优化的梯度干扰)以及物理执行瓶颈(真实世界复杂的驱动约束)。
为了从根本上解决这一问题,研究团队提出了OmniXtreme框架。该框架将动作技能的学习与物理驱动的微调进行了巧妙的解耦,分为“基于流的可扩展预训练”与“驱动感知的残差后训练”两个核心阶段。
为了验证系统是否打破了泛化壁垒,团队设计了渐进式的压力测试。他们将训练动作集从10个逐步扩展到20个,最终扩展到50个,并使用固定的前10个动作进行统一评估。实验结果揭示了显著的差异。随着动作多样性的增加,传统从头训练的强化学习基线模型出现了严重的性能衰退,其成功率从100%暴跌至83.3%,最终滑落至73.9%。相比之下,OmniXtreme展现出了惊人的韧性,在50个动作的庞大训练集下,其对核心动作的跟踪成功率依然坚挺在93.3%。这彻底推翻了高保真度必定随着多样性增加而崩溃的固有认知。
北京通用人工智能研究院供图
文/北京青年报记者 雷嘉
编辑/ 汪浩舟
签发编辑/ 马晓晴








