TLDR
本文提出了一种**知识绝缘(Knowledge Insulation)的 VLA 训练方案。其核心是通过在训练时引入离散动作预测作为辅助任务来学习表征,同时使用停止梯度(Stop-gradient)**技术防止随机初始化的连续动作专家(Action Expert)破坏预训练 VLM 的语义知识。该方法实现了训练快、推理快且泛化性能更强的 VLA 模型。
Metadata
- 发表期刊/会议:arXiv
- 论文作者:Physical Intelligence
- 研究机构:Physical Intelligence
- 论文链接:https://arxiv.org/abs/2505.23705
- 关键词:
- **Code & Dataset & Weight:**https://github.com/Physical-Intelligence/openpi
- BibTeX:
@misc{driess2025knowledgeinsulatingvisionlanguageactionmodels, title={Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better}, author={Danny Driess and Jost Tobias Springenberg and Brian Ichter and Lili Yu and Adrian Li-Bell and Karl Pertsch and Allen Z. Ren and Homer Walke and Quan Vuong and Lucy Xiaoyang Shi and Sergey Levine}, year={2025}, eprint={2505.23705}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2505.23705}, }
Problem Definition
研究问题
这篇论文旨在解决将预训练视觉语言模型(VLM)适配为机器人动作模型(VLA)时,如何兼顾实时连续控制与预训练语义知识保留的问题 。
形式化定义
输入: 图像观测 $I_{1:V}$、机器人本体状态 $q \in \mathbb{R}^{s}$ 和自然语言指令 $l$ 。
输出: 连续动作轨迹 $a_{1:H}$(Action Chunking)。模型学习策略 $a \sim \pi(\cdot|I_{1:V}, q, l)$ 。
价值与意义
当前的 VLA 模型面临两难:离散自回归模型(如 RT-2)推理太慢(< 2Hz),无法进行复杂动态控制;而引入连续专家模块(如 $\pi_0$)往往会因为随机初始化的梯度干扰,导致模型丢失 VLM 的语义理解能力 。解决此问题能让机器人具备更强的常识推理与精准控制能力
Challenges
核心挑战
推理延迟: 大规模 VLM 的自回归解码对于高频连续控制(如 > 10Hz)而言计算成本过高。
知识退化: 现有的适配器(Adapters)或专家模块在微调初期是随机初始化的,其回传的梯度会污染 VLM 预训练好的权重,导致语言遵循能力下降。
本文针对性解决的挑战
论文重点攻克了梯度干扰导致的知识丢失问题。这种选择非常合理,因为如果为了控制精度而牺牲了 VLM 核心的泛化能力,VLA 就失去了其作为“基础模型”的最大优势 。
Angle & Motivation
切入角度
从**梯度流控制(Gradient Flow Control)**角度切入。不允许连续动作专家的梯度更新VLM,仅允许离散动作预测和通用 VLM 任务来更新骨干网络 。
合理性与重要性
论文通过初步实验发现,直接训练连续专家的 $\pi_0$ 模型会忽略语言指令,证明了随机初始化的模块梯度确实会干扰语义空间 。
创新性
打破了“端到端联合微调所有模块”的固有范式,提出了将“动作生成”与“表征学习”在梯度层面解耦的思路。
Methodology
实现细节
- 双重动作表示: 训练时同时计算离散动作(使用 FAST 标记器)的交叉熵损失 $\mathcal{L}{AR-VLA}$ 和连续动作的流匹配(Flow Matching)损失 $\mathcal{L}{FLOW-VLA}$ 。
- 知识绝缘: 在注意力层中引入 $\text{sg}(\cdot)$(stop-gradient)操作,禁止连续专家模块的梯度流向 VLM 骨干网络(PaliGemma 3B)。
- 多模态联合训练(Co-training): 混合机器人动作数据与通用 VLM 数据(如字幕、VQA),进一步巩固语义知识 。
逻辑闭环
骨干网络通过离散动作任务获得“干净”的机器人控制语义,而 300M 参数的连续专家模块通过交叉注意力获取这些特征并生成精准轨迹,互不干扰 。
性能提升的本质
本质在于保护了预训练的特征空间。离散动作预测提供了一个更稳定的训练目标,让骨干网络快速适应机器人领域,而不会被专家的随机初始化“带偏” 。
Experiments
实验设置与指标
Benchmark: LIBERO 仿真、DROID 实测、以及多种真实的复杂长程任务(叠衣服、移动端清理桌子、开抽屉等)。
指标: 任务成功率(Success Rate)、语言遵循率(Language Following Rate)、推理频率(Hz)。
对比实验
对比了 $\pi_0$、$\pi_0$-FAST、HybridVLA、OpenVLA-OFT 等 。实验结果显示,本文方法在保持 10Hz 推理速度的同时,性能显著优于上述模型 。
消融实验
Stop-gradient: 移除该项后,模型在“Items in drawer”任务中的表现显著下降,语言理解出现混乱。
VLM Co-training: 证明了加入 VQA 等通用数据对处理 OOD(分布外)物体的泛化至关重要。
Summary & Evaluation
总体评价
这篇论文不仅提出了一个新的 SOTA 模型,更深入探讨了 VLA 训练中长期被忽视的梯度干扰问题,为如何优雅地利用超大规模预训练模型提供了实战指导 。
值得 Follow 的点
梯度屏蔽策略: 这种通过停止梯度来保护预训练权重的做法,可以推广到任何引入新模态专家的多模态学习中。
FAST 标记器作为辅助任务: 离散表示虽然不直接用于推理,但作为“表征学习的锚点”非常有价值 。