物理仿真人形机器人的统一全身控制策略

描述

创建动作自然并对各种控制输入做出智能响应的交互式仿真人形机器人仍是计算机动画和机器人技术领域最具挑战性的问题之一。NVIDIA Isaac Sim等高性能 GPU 加速仿真器以及使用NVIDIA Isaac Lab的机器人策略训练,使交互式人形机器人的训练取得了显著的进展。

最近推出的 Adversarial Motion Priors 和 Human2Humanoid 为仿真机器人和真实机器人带来了重大的飞跃。但它们有一个共同的缺陷——每次改变人形机器人的控制方式,都需要重新训练一个新的专用控制器。

本文将介绍 MaskedMimic,这是一个通过运动补全实现人形机器人统一全身控制的框架。MaskedMimic 是NVIDIA Project GR00T项目的一部分,该项目旨在推动通用人形机器人开发。这项研究工作为 GR00T-Control 做出了贡献,GR00T-Control 是一套用于全身控制的先进运动规划和控制程序库、模型、策略与参考工作流。

克服任务特定控制

传统的人形机器人控制方法因其任务特定性而存在固有局限。例如,专用于路径跟踪的控制器无法处理需要头部和手部协调跟踪的远程操作任务。同样,训练用于追踪演示者全身动作的控制器,也无法适应仅需追踪部分关键点的场景。

这种局限性带来了巨大的挑战,包括:

修改控制方案需要设计新的训练环境,并设置特定的奖励和观察指标,并从头开始训练一个新的控制器。

在不同控制模式之间切换变得不切实际。

开发和部署周期漫长,资源消耗大。

运动补全提供了整合性解决方案

生成式 AI 领域的最新进展表明,在文本、图像甚至动画等多个领域中使用补全 (inpainting)技术都取得了显著的成功。这些方法的共同点是,它们通过训练学习从掩码(不完整)或局部视图中重建完整数据。MaskedMimic 将这一模式应用于全身人形机器人控制任务。

MaskedMimic 接受多种类型的局部运动描述:

带掩码的关键帧:特定时间范围内所选身体部位的位置数据(例如带有头部/手部位置的 VR 远程操作数据)。

场景交互:自然物体交互指令(例如“坐在这张椅子上”)。

文本描述:自然语言运动描述(例如“用右手挥手”)。

混合输入:上述输入的组合(例如带有文体文本限制的路径跟踪)。

机器人

图 1. MaskedMimic 通过不同的控制方案生成全身运动

MaskedMimic 的工作原理

训练 MaskedMimic 经过两个阶段的流程,该流程依托于一个包含人类运动、运动文本描述和场景信息的庞大数据集。

这些数据展示了人类如何运动,但缺乏仿真机器人重现这些运动所需的电机动作。

在该流程的第一阶段,将针对全身运动跟踪任务,对强化学习智能体进行训练。此模型会观察机器人的本体感受、周围地形以及它在不久的将来应当执行的动作。然后,它会预测重建所演示动作所需的电机动作。这可以被视为一个能够适应周围地形的逆向模型。

训练的第二阶段是教师-学生在线蒸馏(teacher-student distillation)过程。第一阶段的模型被用作固定的专家模型,不再进行训练。

在训练过程中,人形机器人被初始化为一个随机运动的随机帧。当专家观察未经修改的未来演示时,学生会得到一个随机的掩码版本。

掩码可能非常密集,从而为学生模型提供所有信息,包括每帧中的每个关节、文本以及场景信息。它也可能非常稀疏,例如只有文本或几秒的头部位置。

学生(MaskedMimic)的目标是进行运动补全。MaskedMimic 在获得局部(掩码)运动描述后,需要成功预测专家动作,进而再现原始的无掩码运动演示。

运动补全

通过将控制和运动生成看作一个补全问题可以实现广泛的功能。例如,MaskedMimic 可以在仿真的虚拟世界中重建用户的演示。

通过摄像头推断的运动可能包括所有的身体关键点。

另一方面,虚拟现实系统通常只包含一个跟踪传感器子集。Oculus 和 Apple Vision Pro 等常见系统可提供头部和手部坐标。

我们还测量了 VR 跟踪的成功率和跟踪误差。实证结果表明,与专门为此任务优化的控制器相比,性能有了很大提高。在没有任何针对特定任务的训练或微调时,MaskedMimic 统一控制器的性能优于之前的专用控制器。

机器人

表 1. 跟踪从未曾见过的 AMASS 测试集中

提取的 VR 信号(头部和手部位置)的成功率

交互控制

该控制方案可根据用户输入生成新的运动而被复用。MaskedMimic 的统一策略能够解决多种任务,之前的研究则是通过训练多个不同的专用控制器解决问题。

通过指定根节点(root)的未来位置和方向,就可以使用操纵杆控制器操纵 MaskedMimic。

同样,可根据头部位置和高度,指示 MaskedMimic 沿着一条路径前进。

另一项重要功能是场景互动。基于某个物体对 MaskedMimic 进行调节,就好比指示它“自然地与该物体互动”。

MaskedMimic

统一控制系统的优势

MaskedMimic 有两大显著优势:

出众的性能:在一系列控制输入中,MaskedMimic 的性能均优于特定任务控制器。

零样本泛化:MaskedMimic 展现出了整合通过不同训练方式所获知识的能力,这类似于生成式文本和图像模型学习整合知识的方式。例如,虽然只在平坦和不受干扰的环境中接受过物体交互训练,但它能学会与放置在不规则表面上的未曾见过的物体进行交互。

总结及未来的工作

MaskedMimic 代表了多功能人形机器人控制领域的一大进步,它通过运动修补统一了不同的控制模式,同时保持了物理真实性。这项研究可以扩展到几个令人期待的领域,详情如下。

机器人应用:这项研究将能够成功扩展到真实机器人应用。在仿真机器人(如 Unitree H1)上进行训练,能够让真实机器人系统的控制变得更加直观。

增强交互能力:目前,这项工作展示了非复杂地形和静态场景。下一个重要里程碑可能是更复杂的动态环境,如物体操纵和跑酷等。

技术改进:最后,这项工作已将动画作为重点。它可以部署在实时游戏和机器人系统中用于优化推理速度,还可以部署在更加多样化和不可预测的环境中,用于提高故障恢复能力。

欲了解包括源代码和预训练模型在内的更多信息,请访问 MaskedMimic:通过掩码运动补足实现基于物理学的统一角色控制。

开始使用

NVIDIA Project GR00T 是一项旨在加速人形机器人开发的研究计划。如果您是人形机器人制造商或机器人软件或硬件厂商,请申请加入 NVIDIA 人形机器人开发者计划。

通过新的开发者入门指南和教程掌握 Isaac Lab 入门知识或从 Isaac Gym 迁移至 Isaac Lab。

查看 Isaac Lab 参考架构,了解使用 Isaac Lab 和 Isaac Sim 的端到端机器人学习流程。

了解更多有关头部机器人公司如何使用 NVIDIA 平台的信息,包括 1X、Agility Robotics、The AI Institute、Berkeley Humanoid、波士顿动力、Field AI、傅利叶、银河通用、Mentee Robotics、Skild AI、Swiss-Mile、宇树科技和 XPENG Robotics。

北京时间 1 月 7 日(星期二)上午 10:30 观看 NVIDIA CEO 黄仁勋在拉斯维加斯现场发表的 CES 开幕主题演讲。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分