核心摘要

该论文提出了一个名为ODYSSEY的统一移动操控框架,专为配备了机械臂的敏捷四足机器人设计。该框架旨在解决语言引导下的长时程、开放世界移动操控任务中的三大核心挑战:一是如何将基于大语言模型的规划能力从桌面场景扩展到具有自我中心感知和运动限制的移动平台;二是如何提升操控策略在面对开放世界中多样化物体的泛化能力;三是如何在非结构化环境中同时实现机器人平台的高机动性与末端执行器的高精度控制。ODYSSEY通过无缝集成高级任务规划与低级全身控制来应对这些挑战。它包含一个由视觉语言模型驱动的层级化规划器,一个能够适应挑战性地形的全身控制策略,以及首个用于评估长时程移动操控的综合性基准测试。通过成功的模拟到真实(sim-to-real)迁移,该系统在真实世界部署中展现了强大的泛化性和鲁棒性。

研究背景与挑战

当前机器人研究在动态环境导航和受控环境操控方面已取得显著进展,但将二者结合以实现开放世界中的长时程移动操控仍然面临巨大挑战。现有的一些全身控制框架在可扩展性上存在局限,因为它们的环境假设过于简化,且评估仅限于短时程的拾取和放置任务。此外,虽然大型语言模型和视觉语言模型在增强机器人推理方面显示出潜力,但其应用大多局限于固定的桌面场景,未能解决移动平台带来的感知和规划难题。

主要贡献
  • 提出一个层级化的视觉语言规划器:该规划器能够弥合自我中心感知与语言条件任务之间的鸿沟,将长时程指令分解为可执行的原子动作。
  • 提出一个全身控制策略:这是首个能够在挑战性地形上泛化,并同时协调运动与操控的全身控制策略。
  • 引入首个长时程移动操控基准:该基准覆盖了广泛的、现实的室内和室外场景。
  • 实现成功的模拟到真实迁移:证明了高级规划器和低级控制策略均能在真实世界部署中展现出强大的泛化性和鲁棒性。
ODYSSEY框架详解

ODYSSEY框架由三个核心组件构成:一个从粗到精的任务规划器,一个四足机器人全身控制策略,以及一个移动操控基准测试。

3.1 长时程任务规划器

这是一个层级化规划器,负责在高层级进行任务规划,在低层级生成精确的操控动作 18181818。

  • 地图感知的任务级规划:为了支持基于自我中心观察的长时程任务规划,系统首先通过融合机载RGB摄像头和激光雷达的数据,构建一个空间语义表示。利用一系列预训练的基础模型,系统会生成一个实例图,该图编码了物体的几何形状和语义信息。随后,GPT-4.1模型被用来将自然语言指令分解为一系列预定义的原子动作(如导航、拾取、放置、推/拉/拖拽)。对于需要空间移动的动作,模型会输出一个粗略的目标航点,并将其投影到一个通过在线SLAM构建的2D占据栅格地图上,以规划出无碰撞的路径。

  • 几何约束的局部操控:对于需要近距离操控的原子动作,系统使用安装在机械臂手腕上的深度相机观察来引导一个视觉语言模型(Qwen2.5-VL-72B-Instruct)生成精确的末端执行器位姿。该VLM首先在2D图像空间中推断出与任务相关的接触点,然后利用对齐的深度图将其恢复到3D机器人坐标系中,从而确定末端执行器的位置。之后,模型会进一步生成末端执行器的朝向,并受到几何条件的约束(如轴对齐约束和表面法线约束),以确保操控的可靠性。

3.2 全身控制策略

这是一个基于强化学习的控制器,能够执行高级规划器发出的指令,并适应多样的地形 26。

  • 策略制定:控制策略是一个单一的神经网络,它将一个全面的观察向量(包括运动指令、末端执行器目标、局部地面高度图、本体感知状态等)映射为18个关节的目标位置偏移量。

  • 两阶段课程学习:为了提高训练的鲁棒性,策略采用两阶段训练。第一阶段,机械臂关节被固定,策略专注于学习在静态负载下的稳定运动步态。第二阶段,在训练了2000次迭代后,策略开始控制所有18个关节,奖励函数中加入了末端执行器位姿跟踪项,以同时学习运动和操控。

  • 地形不变的末端执行器采样:在训练中,为了让策略能够适应不同地形,末端执行器的目标位置是在世界坐标系中进行采样的,其z轴高度在世界坐标系中是固定的。这种方法将目标从机器人基座的姿态变化和地形起伏中解耦,显著提高了在真实任务中的交互精度。

  • 域随机化:为了弥合模拟与现实之间的差距,训练过程中广泛使用了域随机化技术,包括随机化摩擦力、质量、初始状态等参数。

3.3 模拟基准测试

为了统一评估导航、操控和全身控制能力,论文提出了首个专为长时程移动操控设计的模拟基准 。

  • 资产与场景库:基准包含一个多样的资产库,包括超过100个可交互物体(分为刚体、容器、可动关节结构和可拖拽物品四类)和10个现实的3D场景(包括5个室内住宅、2个超市、1个餐厅和2个室外庭院)。

  • 多阶段任务套件:基准包含两类任务。一类是4个从ARNOLD基准迁移而来的短时程操控技能,用于评估细粒度的操控精度。另一类是8个新设计的长时程移动操控任务, spanning 2-3个子目标,共有246个室内和58个室外任务变体,用于评估系统的 embodied reasoning、导航和顺序操控能力。

  • 模块化评估协议:评估协议不仅衡量任务的总体成功率,还衡量每个分解出的原子动作的成功率,从而能够同时评估执行精度和规划的连贯性。

实验与结果分析
4.1 高级规划器性能
  • 短时程任务:ODYSSEY在4个ARNOLD任务上的表现显著优于强大的基线模型PerAct。特别是在涉及未见过的物体或场景的“新颖”测试集上,PerAct性能大幅下降,而ODYSSEY能保持稳定性能,展现了更强的泛化能力。

  • 长时程任务:在8个长时程任务中,ODYSSEY的总体成功率均达到40%以上,而每个原子技能的成功率保持在60%以上,显示了在广义长时程任务中的强大协调能力。失败分析表明,室内任务的失败主要源于规划器的推理错误(如对物体几何形状的空间推理不足)和控制失误(如在狭小空间内抓取不稳);而室外任务的控制失败则更多与在不平坦地形上执行操控时失去平衡有关。

4.2 低级控制策略性能

与基线方法RoboDuet相比,ODYSSEY的控制策略在动态(移动)条件下实现了更好的基座速度跟踪性能,这归功于策略将地形数据作为观测输入。尽管ODYSSEY的训练工作空间比基线更小,但在更大的评估工作空间中,其末端执行器位姿跟踪性能与基线相当,展示了强大的泛化能力。

4.3 模拟到真实(Sim-to-Real)性能

该框架被成功部署到一台由Unitree Go2四足机器人和Arx5机械臂组成的真实机器人平台上。在真实的“导航到目标并拾取”和“拾取并放置”等长时程任务中,整个系统展现了成功的模拟到真实迁移能力。尽管如此,一些差距依然存在,例如由于末端执行器跟踪和视觉感知的微小误差,机器人在抓取小物体时偶尔会失败。

结论与未来工作

ODYSSEY是一个统一的、用于开放世界移动操控的框架,它成功地集成了层级化任务规划和地形自适应的全身控制。研究证明了该方法在多样的环境和长时程任务中具有强大的模拟到真实迁移能力和泛化性。未来的工作将致力于将该基准扩展为一个更全面的评估范式,并探索主动感知等 emergent capabilities。