Pluto's blog

TLDR

Physical Intelligence 的新论文，提出了 RECAP 方法，在做咖啡、折纸盒、叠衣服等三个任务上取得很好的效果。

1）训练了 value function 用于在离线数据上计算 advantage function；

2）让 binarized advantage 作为 VLA policy 的输入，从而把质量不同的离线数据利用起来；

3）把 human demo、autonomous rollouts、human correction 等都作为离线数据一起使用。

Metadata

发表期刊/会议：arXiv
论文作者：Physical Intelligence
研究机构：Physical Intelligence
论文链接：https://arxiv.org/abs/2511.14759
关键词：VLA、Reinforcement Learning、Advantage Conditioning、Flow Matching
**Code & Dataset & Weight：**还没开源
BibTeX：

@misc{intelligence2025pi06vlalearnsexperience,
      title={$\pi^{*}_{0.6}$: a VLA That Learns From Experience}, 
      author={Physical Intelligence and Ali Amin and Raichelle Aniceto and Ashwin Balakrishna and Kevin Black and Ken Conley and Grace Connors and James Darpinian and Karan Dhabalia and Jared DiCarlo and Danny Driess and Michael Equi and Adnan Esmail and Yunhao Fang and Chelsea Finn and Catherine Glossop and Thomas Godden and Ivan Goryachev and Lachy Groom and Hunter Hancock and Karol Hausman and Gashon Hussein and Brian Ichter and Szymon Jakubczak and Rowan Jen and Tim Jones and Ben Katz and Liyiming Ke and Chandra Kuchi and Marinda Lamb and Devin LeBlanc and Sergey Levine and Adrian Li-Bell and Yao Lu and Vishnu Mano and Mohith Mothukuri and Suraj Nair and Karl Pertsch and Allen Z. Ren and Charvi Sharma and Lucy Xiaoyang Shi and Laura Smith and Jost Tobias Springenberg and Kyle Stachowicz and Will Stoeckle and Alex Swerdlow and James Tanner and Marcel Torne and Quan Vuong and Anna Walling and Haohuan Wang and Blake Williams and Sukwon Yoo and Lili Yu and Ury Zhilinsky and Zhiyuan Zhou},
      year={2025},
      eprint={2511.14759},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2511.14759}, 
}

Problem Definition

研究问题

如何让 VLA 模型在实际机器人部署中通过真实世界的经验进行强化学习和持续改进，而不是局限于模仿学习。

形式化定义

Input: 观察序列 $o_t$（多摄像头图像、机器人关节状态）、语言指令 $l$、以及优势指示符 $I_t$。

Output: 连续动作块 $a_{t:t+H}$（50Hz 频率的关节角度和夹具命令）及子任务文本输出 $\hat{l}$ 。

价值与意义

让机器人具备“熟能生巧”的能力，能够纠正部署中的错误，适应新环境，并超越单纯模仿人类操作的水平。

Challenges

核心挑战

为大规模 VLA 模型设计稳定且可扩展的强化学习算法极其困难。
现实世界中的奖励信号往往模糊或具有随机性。
如何整合异质的数据源（演示、自主运行、人类专家在线纠错）。

本文针对性解决的挑战

如何在大规模连续动作空间（Flow Matching 架构）上进行策略改进，而无需计算复杂的对数似然或策略梯度。

Angle & Motivation

切入角度

优势条件策略提取。

合理性与重要性

作者发现，传统的策略梯度方法（如 PPO）在处理基于 Flow Matching 的 VLA 时难以收敛且计算代价巨大。

实验证明，通过在 Prompt 中加入 $I_t=1$（代表该动作能带来性能提升），可以像 CFG 一样引导模型产生更高回报的动作。

创新性

打破了RL必须跑策略梯度的范式，证明了在 VLA 中，通过表征注入（Conditioning）实现 offline RL 是最实用的途径之一

Methodology

实现细节

![image-20260123095931806](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123095931806.png)

模型一共有两个，一个是 VLA模型，一个是Value模型。

VLM backbone：Gemma 3 4B。
Action由一个 860M 参数的 **Flow-matching Expert **输出，与backbone通过注意力交互，但对backbone做 stop-gradient。

VLA 模型

输入

多视角相机图像（基座 + 双腕相机）+ 机器人关节 / 夹爪状态。
文本提示：任务指令 + 元数据（描述任务具体怎么完成）。
二值文本 token：“Advantage: positive”或“Advantage: negative”

输出

backbone输出子任务文本，对应离散动作。
Action expert 输出未来 H 步的连续关节动作 at:t+H（50Hz）。

Value 模型

和VLA结构相同但参数量更小的670M模型，输入也和VLA模型相同，训练时加入互联网数据防止overfit。

每个时刻reward的定义为：如果是最后一步且成功则reward为0，失败则reward为一个设定的负值，其他情况为-1。Value的定义就是当前时刻之后所有reward的和。因此Value是负值，且如果轨迹是成功的轨迹，则Value代表了距离完成所需的步数。

训练步骤

主要分为pi 0.6基础模型预训练和pi*0.6 RECAP训练两个阶段。 pi 0.6基础模型多任务预训练

和pi0.5基本类似
大规模多机器人、多任务的专家数据，数量级为数万小时轨迹。
另有网页多模态 V-L 数据，用于共同训练 VLA。

pi*0.6 RECAP训练

![image-20260123094329881](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123094329881.png)

在pi 0.6的基础上增加一个indicator文本输入，当Advantage函数（Value的增量）大于阈值时，indicator为“Advantage: positive”，反之则为“Advantage: negative”。且人工干预数据固定为positive。

训练首先会在多任务数据$D_{demo}$上预训练VLA和Value模型。然后在目标任务的数据$D_l$上微调VLA和Value网络。之后会迭代多轮，收集模型rollout数据和人类干预数据后从头训练VLA和Value网络。

一个gemini的比喻：

分头行动：让一群专家模型去各个领域“踩坑”、“探路”，把好动作（$I=1$）和纠偏经验记录下来。
集思广益：最后，把这些宝贵的“路书”全部收回来，交给一个最聪明的新模型，让它一次性读完所有经验。

![image-20260123121830370](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123121830370.png)

逻辑闭环

是否匹配动机：匹配。第四部分提到的核心动机是“在大规模 VLA 上进行稳定且可扩展的 RL 训练” 。RECAP 通过将 RL 转化为条件监督学习（Advantage Conditioning），有效避免了传统策略梯度（如 PPO）在处理大规模非线性模型时的不稳定性。

**是否 trivial **：没有。尽管“条件生成”在 LLM 领域很常见，但在 VLA 中处理异质数据（演示、自主尝试、干预）时，如何定义这个条件并使其与连续动作流（Flow Matching）融合是极具挑战的，本文提供的 $I_t$ 指示符方案非常简洁且优雅。

性能提升的本质

表征的解耦与引导：性能提升的本质不在于模型变大，而在于优势信息的表征化 。通过显式告知模型哪些经验是正向的，模型在隐含空间内实现了对“成功策略”的精准提取。

数据利用效率：RECAP 允许模型从失败中学习。通过标记“Advantage: negative”，模型学会了哪些表征会导致失败，而在推理时通过设置 $I_t = \text{positive}$ 避开这些区域。

6. Experiments

实验设置与指标

任务 A：洗衣折叠 (Laundry)

基础版：T-shirt 和短裤折叠（RT-1 风格基准）。
多样化版：涵盖毛巾、牛仔裤、毛衣等 11 种衣物类型，最具挑战的是纽扣衬衫。

任务 B：浓缩咖啡制作 (Cafe)

流程：拿起手柄 $\rightarrow$ 磨豆 $\rightarrow$ 压粉 $\rightarrow$ 锁定 $\rightarrow$ 接取 $\rightarrow$ 端出。
难点：涉及液体倾倒、精密力控（锁定手柄）和极长的任务序列。

任务 C：工厂组装 (Box Assembly)

场景：真实的工厂环境部署。
流程：拿起纸板 $\rightarrow$ 折叠组装 $\rightarrow$ 贴标 $\rightarrow$ 码放。

其中下游任务的数据量大概是：

简单洗衣（T-shirt & shorts）：
- 每轮收集 300 条轨迹 × 4 台机器人。
Box assembly：
- 每轮 600 条自主 episode + 360 条带干预 episode，3 台机器人。
double espresso：
- 1 轮：414 条自主 episode + 429 条干预 episode。
diverse laundry与failure removal实验：
- diverse laundry：450 条 eval + 287 条纠错。
- Failure removal：约 1000 条自主 + (280+378) 条纠错。

另外，由于pi的action expert采用flow matching，RECAP训练时是类似classifer free guidance的训练，即可以同时训练有condition(有indicator输入）和无condition(无indicator输入）的输入方式，在推理时，可以通过指定Advantage为positive或调整权重来获得想要的action输出。

对比实验

核心指标：吞吐量 (Throughput)（成功次数/小时）—— 这不仅考量成功率，还考量了动作的执行效率。

对比结果：

RECAP vs. SFT：在多样化洗衣任务中，吞吐量从约 4 次/小时提升至 8 次/小时。
RECAP vs. PPO/AWR：PPO 在这种超大规模 VLA 上难以稳定约束动作分布，表现远逊于优势条件法。

消融实验结论：即使没有干预数据，仅靠自主尝试产生的“失败表征”进行 RL 训练，也能有效移除特定故障模式。

消融实验

哪一个模块或参数对结果影响最大？这是否印证了作者的动机？

7. Summary & Evaluation

总体评价

值得 Follow 的点

优势指示符 $I_t$ 的注入：这为研究“物理信号如何映射到语言语义空间”提供了极佳的实验环境。
Knowledge Insulation 技术

局限性：依然依赖密集的人类标注奖励，且对于“动作表征”的修正主要依赖梯度更新，缺乏更直观的在线语义修正。

TLDR#

Metadata#

Problem Definition#

研究问题#

形式化定义#

价值与意义#

Challenges#

核心挑战#

本文针对性解决的挑战#

Angle & Motivation#

切入角度#

合理性与重要性#

创新性#

Methodology#

实现细节#

VLA 模型#

Value 模型#

训练步骤#

逻辑闭环#

性能提升的本质#

6. Experiments#

实验设置与指标#

对比实验#

消融实验#

7. Summary & Evaluation#

总体评价#

值得 Follow 的点#

局限性与机会#