Pluto's blog

0. TLDR

这一篇是专门针对 VLA 的Action Tokenization 的工作，核心是网络输出action token形式的优化，可以用于优化PI0加速训练。与pi0（diffusion VLA）不同的是，这里是自回归（AR）的VLA，这类工作先前还有RT-1,RT-2,OpenVLA。论文提出了 FAST，一种基于离散余弦变换 (DCT) 和 字节对编码 (BPE) 的动作分词方案，通过将动作信号从时域转为频域并压缩，解决了高频机器人数据在自回归训练中因信息冗余导致的“训练崩坏”问题。在训练速度上比基于扩散模型的 $\pi_{0}$ 快 5 倍，且在复杂的“叠衣服”等灵巧任务上表现持平，并实现了首个在 DROID 数据集上的零样本 泛化策略。在 VLA 研究中，动作的表征质量与模型架构同等重要；频域分析为处理高频时序信号提供了一个极其简单且高效的新视角。

1. Metadata

发表期刊/会议：arXiv
论文作者：Physical Intelligence
研究机构：Physical Intelligence
论文链接：https://arxiv.org/abs/2501.09747
关键词：VLA, Action Tokenization, Discrete Cosine Transform (DCT), Autoregressive Transformers
Code & Dataset & Weight： https://github.com/Physical-Intelligence/openpi
BibTeX：

2. Problem Definition

研究问题

基于Transformer的 VLA 模型在学习复杂且可泛化的机器人行为方面非常有效。但必须对连续的机器人动作信号进行“Token”（分词）（LLM 的文本生成形式就是预测next token），将连续动作映射为离散的token。(RT-2、openvla类似的做法)，当前主流的action Token化方法，即简单的“逐维度、逐时间步分bin”，在处理来自高频控制的灵巧操作时表现很差。如何为自回归 VLA 模型设计一种高效的动作 Token 化方案，使其能够处理高频且灵巧的机器人动作？

形式化定义

策略 $\pi(a_{1:H}|o)$ 将观测 $o$ 映射到长度为 $H$ 的动作序列（Action Chunk）。Token 化过程 $\mathcal{T}a: a{1:H} \rightarrow [T_1, \dots, T_n]$ 需要将连续动作序列转化为离散 Token 序列，且需保证重构误差最小。

价值与意义

打破了AR VLA 只能做低频简单任务的局限，使其在计算效率和泛化性能上能与 Flow-based 的方法一较高下。

3. Challenges

核心挑战

在高频控制下，相邻时间步的动作高度相关，导致每个Token 的边际信息量**趋近于零。

本文针对性解决的挑战

传统的“逐时间步分 bin”方案在处理高频数据时，模型容易陷入局部最优——它会学会简单的“复制上一个动作”来降低 Loss，而无法提取有意义的控制逻辑。这种选择非常合理，因为本质问题不在模型容量，而在数据表征的信噪比。

4. Angle & Motivation

切入角度

时间序列压缩（Time-series Compression）。作者借鉴了图像压缩（如 JPEG）的逻辑：平滑变化的信号在频域中可以用极少数系数表达。

合理性与重要性

论文通过一个简单的三次样条曲线插值实验证明：随着采样频率增加，Naive 方案的预测误差呈指数级上升，而基于 DCT 的方案误差始终保持低位稳定。

创新性

它打破了“动作预测即分类”的固有范式，引入了类似语言模型 BPE 的思想来压缩连续控制信号。

5. Methodology

实现细节

![image-20260123103008734](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123103008734.png)

![image-20260123103034227](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123103034227.png)

归一化：将动作映射到 $[-1, 1]$ 区间。
离散余弦变换 (DCT)：将动作序列从时域转换到频域。
量化与稀疏化：通过 scale-and-round 操作保留显著的频率系数，抹除不重要的噪声。
分层展平：优先排列所有维度的低频系数（决定大体轨迹），后排列高频系数（细化动作）。
BPE 编码：使用 BPE 算法将稀疏的整数序列进一步压缩为密集的 Token 。

逻辑闭环

该方法通过 DCT 移除了冗余，通过 BPE 提升了每个 Token 的信息密度，解决了第 4 部分提到的“边际信息量低”的问题。

性能提升的本质

更紧凑的表征让模型在相同的训练步数内看到了更高效的信号，加快了收敛速度。

6. Experiments

实验设置与指标

在 6 个真实机器人任务（如叠 T 恤、收餐具、装杂物袋）和 1 个模拟环境（Libero）中评估。主要指标是任务成功率和任务进度 。

对比实验

Baseline：Naive Binning (OpenVLA 风格)、FSQ (基于分级向量量化)。

SOTA 对比：与基于扩散模型的 $\pi_{0}$ 相比，FAST 能够以 1/5 的计算量达到同等性能

消融实验

证明了 BPE 步骤至关重要。如果没有 BPE，序列中充满了大量的 0，会稀释学习信号并显著拖慢推理速度。

7. Summary & Evaluation

总体评价

你认为这篇论文的质量如何？

值得 Follow 的点

FAST+ 通用分词器：官方发布的预训练分词器可以直接用于其他 VLA 的动作空间。

![image-20260123103117457](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123103117457.png)

局限性与机会

还有哪些坑没填？如果让你来改进，你会从哪里下手？

0. TLDR#

1. Metadata#

2. Problem Definition#

研究问题#

形式化定义#

价值与意义#

3. Challenges#

核心挑战#

本文针对性解决的挑战#

4. Angle & Motivation#

切入角度#

合理性与重要性#

创新性#

5. Methodology#

实现细节#

逻辑闭环#

性能提升的本质#

6. Experiments#

实验设置与指标#

对比实验#

消融实验#

7. Summary & Evaluation#

总体评价#

值得 Follow 的点#

局限性与机会#