Pluto's blog

TLDR

本文提出了一种**知识绝缘（Knowledge Insulation）的 VLA 训练方案。其核心是通过在训练时引入离散动作预测作为辅助任务来学习表征，同时使用停止梯度（Stop-gradient）**技术防止随机初始化的连续动作专家（Action Expert）破坏预训练 VLM 的语义知识。该方法实现了训练快、推理快且泛化性能更强的 VLA 模型。

Metadata

发表期刊/会议：arXiv
论文作者：Physical Intelligence
研究机构：Physical Intelligence
论文链接：https://arxiv.org/abs/2505.23705
关键词：
**Code & Dataset & Weight：**https://github.com/Physical-Intelligence/openpi
BibTeX：

@misc{driess2025knowledgeinsulatingvisionlanguageactionmodels,
      title={Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better}, 
      author={Danny Driess and Jost Tobias Springenberg and Brian Ichter and Lili Yu and Adrian Li-Bell and Karl Pertsch and Allen Z. Ren and Homer Walke and Quan Vuong and Lucy Xiaoyang Shi and Sergey Levine},
      year={2025},
      eprint={2505.23705},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2505.23705}, 
}

Problem Definition

研究问题

这篇论文旨在解决将预训练视觉语言模型（VLM）适配为机器人动作模型（VLA）时，如何兼顾实时连续控制与预训练语义知识保留的问题。

形式化定义

输入： 图像观测 $I_{1:V}$、机器人本体状态 $q \in \mathbb{R}^{s}$ 和自然语言指令 $l$ 。

输出： 连续动作轨迹 $a_{1:H}$（Action Chunking）。模型学习策略 $a \sim \pi(\cdot|I_{1:V}, q, l)$ 。

价值与意义

当前的 VLA 模型面临两难：离散自回归模型（如 RT-2）推理太慢（< 2Hz），无法进行复杂动态控制；而引入连续专家模块（如 $\pi_0$）往往会因为随机初始化的梯度干扰，导致模型丢失 VLM 的语义理解能力。解决此问题能让机器人具备更强的常识推理与精准控制能力

Challenges

核心挑战

推理延迟： 大规模 VLM 的自回归解码对于高频连续控制（如 > 10Hz）而言计算成本过高。

知识退化： 现有的适配器（Adapters）或专家模块在微调初期是随机初始化的，其回传的梯度会污染 VLM 预训练好的权重，导致语言遵循能力下降。

本文针对性解决的挑战

论文重点攻克了梯度干扰导致的知识丢失问题。这种选择非常合理，因为如果为了控制精度而牺牲了 VLM 核心的泛化能力，VLA 就失去了其作为“基础模型”的最大优势。

Angle & Motivation

切入角度

从**梯度流控制（Gradient Flow Control）**角度切入。不允许连续动作专家的梯度更新VLM，仅允许离散动作预测和通用 VLM 任务来更新骨干网络。

合理性与重要性

论文通过初步实验发现，直接训练连续专家的 $\pi_0$ 模型会忽略语言指令，证明了随机初始化的模块梯度确实会干扰语义空间。

创新性

打破了“端到端联合微调所有模块”的固有范式，提出了将“动作生成”与“表征学习”在梯度层面解耦的思路。

Methodology

实现细节

双重动作表示： 训练时同时计算离散动作（使用 FAST 标记器）的交叉熵损失 $\mathcal{L}{AR-VLA}$ 和连续动作的流匹配（Flow Matching）损失 $\mathcal{L}{FLOW-VLA}$ 。
知识绝缘： 在注意力层中引入 $\text{sg}(\cdot)$（stop-gradient）操作，禁止连续专家模块的梯度流向 VLM 骨干网络（PaliGemma 3B）。
多模态联合训练（Co-training）： 混合机器人动作数据与通用 VLM 数据（如字幕、VQA），进一步巩固语义知识。

逻辑闭环

骨干网络通过离散动作任务获得“干净”的机器人控制语义，而 300M 参数的连续专家模块通过交叉注意力获取这些特征并生成精准轨迹，互不干扰。

性能提升的本质

本质在于保护了预训练的特征空间。离散动作预测提供了一个更稳定的训练目标，让骨干网络快速适应机器人领域，而不会被专家的随机初始化“带偏” 。

Experiments

实验设置与指标

Benchmark： LIBERO 仿真、DROID 实测、以及多种真实的复杂长程任务（叠衣服、移动端清理桌子、开抽屉等）。

指标： 任务成功率（Success Rate）、语言遵循率（Language Following Rate）、推理频率（Hz）。

对比实验

对比了 $\pi_0$、$\pi_0$-FAST、HybridVLA、OpenVLA-OFT 等。实验结果显示，本文方法在保持 10Hz 推理速度的同时，性能显著优于上述模型。

消融实验

Stop-gradient： 移除该项后，模型在“Items in drawer”任务中的表现显著下降，语言理解出现混乱。

VLM Co-training： 证明了加入 VQA 等通用数据对处理 OOD（分布外）物体的泛化至关重要。

Summary & Evaluation

总体评价

这篇论文不仅提出了一个新的 SOTA 模型，更深入探讨了 VLA 训练中长期被忽视的梯度干扰问题，为如何优雅地利用超大规模预训练模型提供了实战指导。

值得 Follow 的点

梯度屏蔽策略： 这种通过停止梯度来保护预训练权重的做法，可以推广到任何引入新模态专家的多模态学习中。

FAST 标记器作为辅助任务： 离散表示虽然不直接用于推理，但作为“表征学习的锚点”非常有价值。

TLDR#

Metadata#

Problem Definition#

研究问题#

形式化定义#

价值与意义#

Challenges#

核心挑战#

本文针对性解决的挑战#

Angle & Motivation#

切入角度#

合理性与重要性#

创新性#

Methodology#

实现细节#

逻辑闭环#

性能提升的本质#

Experiments#

实验设置与指标#

对比实验#

消融实验#

Summary & Evaluation#

总体评价#

值得 Follow 的点#