核心摘要
该论文旨在解决机器人操控领域的两大核心挑战:策略的泛化能力和执行效率。尽管近期基于视觉语言模型的基础策略模型受益于其强大的常识推理能力,但它们通常执行频率很低,难以满足实时控制的需求。为解决此问题,受卡尼曼双系统理论的启发,研究者们提出了双系统方法,即使用一个基于VLM的“慢速”系统2进行高级推理,并配合一个独立的“快速”系统1动作模型来保证实时控制。然而,现有设计将两个系统作为独立模型,限制了系统1充分利用系统2中VLM丰富的预训练知识。为此,本文提出了一个名为Fast-in-Slow, FiS的统一双系统视觉-语言-动作(VLA)模型。其创新之处在于,通过部分参数共享,将系统1执行模块嵌入到基于VLM的系统2内部。这种“快在慢中”的范式不仅使系统1能够进行高频执行,还促进了单个基础模型内部推理与执行组件的协调。考虑到两个系统在FiS-VLA中扮演着根本不同的角色,研究者为它们设计了异构的模态输入和异步的操作频率,以实现快速而精准的操控。为了协调两个系统,论文提出了一种双重感知协同训练策略,在赋予系统1动作生成能力的同时,保留了系统2的上下文推理表示能力。在评估中,FiS-VLA的平均成功率在模拟任务中比现有SOTA方法高出8%,在真实世界任务中高出11%,同时在动作序列长度为8时,控制频率达到了117.7Hz。
研究背景与挑战
机器人操控的核心目标是将真实世界的感官数据和人类指令转化为精确的控制信号。同时,让机器人能够执行广泛任务并适应多变的环境是其核心挑战。
基于VLM的VLA模型虽然通过在机器人数据集上微调获得了强大的泛化操控能力,但其巨大的参数规模和自回归式的动作生成方式导致操作频率低下,限制了其在真实世界中的闭环控制应用。
现有的双系统设计虽然通过分离推理(系统2)和执行(系统1)提升了效率,但系统1通常是一个轻量级的独立模型,无法充分利用系统2 VLM中蕴含的互联网规模的预训练知识,其性能受限于系统2提取的特征表示。
主要贡献
- 提出Fast-in-Slow(FiS)统一双系统VLA模型:该模型将快速的系统1执行模块嵌入到预训练的VLM(作为慢速的系统2)中,同时保留了系统2完整的推理能力,实现了两个系统在单个模型内的无缝协调。
- 设计异构输入与异步频率的协调机制:鉴于系统2和系统1的角色不同,论文为它们设计了不同的输入模态和异步的操作频率,从而实现了快速且精准的操控。
- 提出双重感知协同训练策略:该策略能够联合优化FiS-VLA中的系统2和系统1。
- 实现SOTA性能和高执行频率:模型在单臂机器人模拟和双臂机器人真实世界实验中均取得了SOTA性能,同时保持了高执行频率。
Fast-in-Slow (FiS-VLA) 方法详解
3.1 核心架构:“快在慢中”的设计
FiS-VLA的核心思想是改造一个完整的VLM(以LLaMA2 7B为骨干),使其同时具备慢速推理和快速执行的能力。
系统2(慢速推理):整个完整的VLM被用作系统2,负责高级的语义理解和上下文推理。
系统1(快速执行):与传统方法不同,FiS-VLA不引入新的独立模型,而是复用VLM的最后几个Transformer模块作为系统1。这样,系统1不仅继承了VLM的预训练知识,还能更好地理解系统2生成的中间推理结果,同时满足实时控制的低延迟要求。
3.2 双系统协调机制
异步操作频率:系统2以低频率运行,处理2D图像和语言指令等信息,生成作为高级指导的中间潜空间特征。系统1则以高频率运行,它以系统2周期性更新的潜空间特征为条件,并结合最新的高频传感器输入,实时生成可执行的动作。实验发现,1:4的慢快频率比能达到最佳效果。
异构模态输入:两个系统接收为其各自功能量身定制的不同输入模态。
系统2的输入:接收语言指令和2D视觉观察,以充分利用其在图文数据上预训练的高级语义推理能力。
系统1的输入:接收对实时控制至关重要的多种高频输入,包括机器人的本体状态、低延迟的2D图像,以及用于精确操控的3D点云数据。3D点云通过一个轻量级的3D标记器和共享的视觉编码器进行高效处理,避免了参数的大幅增加。
3.3 训练策略与流程
双重感知协同训练:为了联合优化两个系统,论文提出了一个协同训练目标。
系统1的训练:采用基于扩散模型的去噪目标,学习生成连续且可靠的动作序列。
系统2的训练:采用自回归的下一令牌预测目标(交叉熵损失),以保持其高级推理和语言生成能力。
预训练与微调:模型首先在一个包含超过86万条轨迹的大规模、跨机器人形态的数据集上进行预训练。随后,在自采集的高质量模拟和真实世界数据集上进行微调 33。
实验与结果分析
4.1 模拟实验(RLBench)
性能对比:在10项RLBench操控任务中,FiS-VLA的平均成功率达到69%,显著优于之前的SOTA方法CogACT(61%)和OpenVLA(40%)。
推理速度:在动作序列长度为1时,FiS-VLA的控制频率为21.9Hz,是CogACT(9.8Hz)的两倍多。当动作序列长度增加到8时,理论控制频率可达117.7Hz。
消融研究:实验验证了模型设计的有效性。1) 将系统2的最后2个模块复用为系统1时性能最佳;2) 3D点云、2D图像和机器人状态等异构输入对系统1的性能均有显著贡献;3) 1:4的慢快系统频率比实现了慢速推理和快速动作生成的最佳平衡。
4.2 真实世界实验
实验设置:在Agilex和AlphaBot两种不同的双臂机器人平台上,分别对4项任务进行了评估。
结果:FiS-VLA在两个平台上的表现均优于基线模型π₀ 。在Agilex机器人上,平均成功率为68%(对比59%);在AlphaBot上为74%(对比61%)。
泛化能力:在面对未见过的物体、复杂的背景和多变的光照条件时,FiS-VLA表现出比基线更强的鲁棒性和更小的性能下降。
结论与局限性
论文提出的FiS-VLA是一个新颖的统一双系统基础模型,它通过将快速执行模块嵌入到慢速推理VLM中,实现了高频动作生成和强大推理能力的统一。通过异构输入、异步频率和协同训练策略,模型在效率和性能上都取得了SOTA表现。
局限性在于,系统1共享的参数数量和两个系统间的协作频率是静态配置的。未来的工作可以探索根据任务需求动态调整这些因素,以实现更强的泛化能力。