Pluto's blog

TLDR

本文证明了 VLM 的通用评测分数与其在机器人控制任务中的表现并不正相关。视觉编码器是 VLA 性能的核心瓶颈，且现有的“具身 VQA”微调对实际动作控制提升微乎其微。

VLM4VLA 通过构建极简的 1% 参数适配插件，设计了标准化的 VLM4VLA 流水线，剥离了策略头架构的干扰，纯粹评估 VLM 骨干网络对控制性能的贡献。一共评估了 24 种 VLM 变体，系统性地揭示了通用 VLM 的能力与具身控制性能之间的非线性关系，并指明视觉模块是决定 VLA 成败的核心瓶颈。

Metadata

发表期刊/会议：arXiv
论文作者：Jianke Zhang1, Xiaoyu Chen1, Qiuyue Wang2, Mingsheng Li2, Yanjiang Guo1, Yucheng Hu1 Jiajun Zhang2, Shuai Bai2, Junyang Lin2, Jianyu Chen1
研究机构：Institute for Interdisciplinary Information Sciences, Tsinghua University、 Qwen Team, Alibaba Inc.
论文链接：https://arxiv.org/abs/2601.03309
关键词：VLA, VLM, Robotic Manipulation、GAP between VLA and VLM
**Code & Dataset & Weight：**https://cladernyjorn.github.io/VLM4VLA.github.io/
BibTeX：

@misc{zhang2026vlm4vlarevisitingvisionlanguagemodelsvisionlanguageaction,
      title={VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models}, 
      author={Jianke Zhang and Xiaoyu Chen and Qiuyue Wang and Mingsheng Li and Yanjiang Guo and Yucheng Hu and Jiajun Zhang and Shuai Bai and Junyang Lin and Jianyu Chen},
      year={2026},
      eprint={2601.03309},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2601.03309}, 
}

Problem Definition

研究问题

现有的 VLA 模型普遍将预训练 VLM 作为核心骨干，但业界缺乏系统性的研究来回答：VLM 的选择及其通用能力如何量化地转化为下游机器人的操作性能？

形式化定义

输入为单视角图像 $I$ 与自然语言指令 $L$，输出为连续的动作块 $A \in \mathbb{R}^{T \times D}$。研究重点在于函数 $f_{VLA}(I, L)$ 中 $f_{VLM}$ 组件的贡献度。

$$ \text{action} = \text{MLP}\left( \text{VLM}\left( \left[ \langle \text{img} \rangle, \dots, \langle \text{img} \rangle, \langle \text{text} \rangle, \dots, \langle \text{text} \rangle, \langle \text{ActionQuery} \rangle \right] \right) \right) $$

价值与意义

通过厘清 VLM 与 VLA 的解耦关系，指导后续研究避开“盲目扩大模型规模”或“无效辅助微调”的误区。

Challenges

本文针对性解决的挑战

解决了评估不公平的问题。通过设计一个统一的 1% 参数插件的评估架构，排除了因策略头设计复杂程度不同而导致的性能差异。

Angle & Motivation

切入角度

极简适配。作者不使用复杂的扩散模型或流匹配为评估造成不必要的干扰，而是采用简单的 MLP 结构，尽可能消除策略头的影响，以观察 VLM 原始权重的表征潜力。

创新性

长期以来，学术界倾向于认为 VLM 在通用语义理解上的提升会自然转化为具身控制能力的增强。本文通过严谨的分析，打破了这一固有范式，证明了通用语义能力与低层动作控制之间存在显著的解耦现象。目前部分研究热衷于通过“具身问答”或“几何感知任务”对 VLM 进行后训练。本文通过多组对比实验证明，此类任务对下游控制的提升微乎其微，指出了感知语义与动作执行之间的特征空间分叉。本文提出的 VLM4VLA 框架以“极简主义”为核心，通过剥离复杂的策略头（Policy Head），实现了对 VLM 骨干网络（Backbone）性能的直接溯源。

Methodology

![image-20260123190509305](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123190509305.png)

![image-20260123181255141](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123181255141.png)

实现细节

架构设计：引入 $\langle ActionQuery \rangle$ Token，提取 VLM 最后的 Hidden State，接入简易 MLP。

训练协议：全参数微调，包含 LLM、Vision Encoder 及 Word Embeddings。

损失函数：采用 Huber Loss 处理连续动作 $a_{pos}$，BCE Loss 处理夹爪状态 $a_{end}$。

$$ L = \frac{1}{|B|} \sum_{B} \left( \frac{| a_{pos} - \hat{a}{pos} |^2}{2} + \text{BCE}(a{end}, \hat{a}_{end}) \right) \quad (1) $$

逻辑闭环

方法通过严格的“控制变量”，确保所有性能增益均来源于 VLM 骨干权重的调整，直接回应了“VLM 能力转化”的研究命题。

Experiments

通用 VLM 性能基准测试 (Performance Analysis)

作者评估了 9 种开源 VLM（1B-30B 参数规模）在统一 VLM4VLA 框架下的表现。具体可见table1、table2

核心发现 1：模型规模不等于控制能力。 在 Simpler-Bridge 和 Libero-Long 任务中，参数量最小的模型 Kosmos-2 取得了最高的成功率，显著优于规模更大的 Qwen 系列。这表明在底层控制任务中，基于坐标定位（Grounding）的预训练比通用语义推理更有效。
核心发现 2：Qwen 系列在语义泛化任务中占优。 在 Calvin ABC-D 任务（对指令理解和场景泛化要求高）中，Qwen2.5/3VL 系列表现出极强的竞争力，其平均完成任务数接近目前的 SOTA 专家模型。

VLM 通用能力与 VLA 性能的相关性分析

作者将 VLM 在 18 个通用 VQA 榜单（如 MMMU, MathVista, GPQA 等）的平均分与 VLA 任务成功率进行线性回归分析。

Calvin 基准（高度正相关）：拟合曲线显示出强线性关系，表明能处理复杂 VQA 任务的模型通常也能较好地完成 Calvin 中的语义指令任务。
Simpler & Libero 基准（无显著相关性）：线性回归的 $R^2$ 极低，曲线近乎水平。
结论：现有的 VLM 通用评测标准无法预测其在精密物理操纵任务中的潜力。

辅助具身任务的影响 (Impact of Auxiliary Tasks)

为了验证“教模型说话是否能让它更会干活”，作者测试了 7 种辅助微调任务（SFT）的效果：

任务类型：
- 几何感知：Robopoint（2D 坐标预测）、Vica（尺寸/距离估算）。
- 动作逻辑：Robo2vlm（动作轨迹判断）、Robobrain2。
- 视觉生成：Omni-Generation（深度图、语义分割图生成）。
实验结果：与未经辅助微调的原始模型（Baseline）相比，所有经过辅助任务微调的模型性能均出现退化。
结论：单纯在语义层面引入具身问答任务，无法弥合底层动作控制所需的精细表征差距。

模态重要性与视觉鸿沟消融 (Modality-level Ablation)

视觉 vs 语言模块

作者对比了冻结（Freeze）与微调（Unfreeze）不同模块的效果：如table3

视觉编码器（Vision Encoder）：冻结该模块会导致所有模型性能断崖式下跌。即便 7B 模型的 LLM 部分保持训练，其表现依然不如视觉层全微调的 3B 模型。
语言模块与词嵌入：冻结词嵌入对 VLA 性能几乎没有负面影响。
结论：视觉表征的重塑是 VLA 训练的核心。

视觉鸿沟的本质分析

为了探究视觉退化的原因，作者进行了两组进阶实验：

分辨率实验：将分辨率从 224 提升至 768，结果显示性能提升极微小。证明瓶颈不在于像素清晰度，而在于特征的对齐方式。table 7
Real-to-Sim 验证：在全真实的 BridgeV2 图像上进行控制任务训练。实验发现即使没有模拟器的视觉噪声，冻结视觉层依然无法实现有效控制。解冻后，通过微调向视觉编码器里注入控制特征，成功率显著提高。 table 4
结论：VLM 学习的是“理解型特征”，而 VLA 需要“控制型特征”，两者在表征空间的轨迹会发生分叉。

视觉表征的“分歧”实验

除了 Figure 4，论文中另一个极具理论价值的图表是 Figure 5，它从表征学习的角度解释了为什么 Figure 4 会出现负面结果。

图表含义：Figure 5 描绘了 VLM 预训练路径与 VLA 动作学习路径在特征空间中的轨迹。
轨迹分叉论：
- 初期一致：在训练初期，两者的空间方向大致相同（都需要理解世界、识别物体）。
- 后期分叉：随着任务深入，VLM 向“语义推理”靠拢，而 VLA 向“精细控制”靠拢。这解释了为什么只做语义层面的 VQA 微调（Figure 4 的内容）无法弥合最终的控制鸿沟。

![image-20260123182219909](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123182219909.png)

训练下限：从零开始训练 (From Scratch)

为了证明 VLM 预训练的必要性，作者随机初始化了相同架构的模型并直接在机器人数据上训练：

结果：所有模型在所有基准测试中均表现出灾难性的性能崩溃（Success Rate 趋近于 0）。
结论：VLM 预训练虽不足以支撑控制，但它提供了机器人理解世界、泛化任务所必需的底层语义先验。

Summary & Evaluation

总体评价

作者通过多次实验给出一个“负面”结论（通用能力不等于控制能力），很有批判性价值。通过剥离 99% 的参数干扰，只用 1% 的极简插件（Minimalist Adaptation）做横向对比，这种控制变量的思维值得学习。

有时间再看一遍。

值得 Follow 的点

从特征学习的角度来看，VLM训练中表示学习的整体空间方向大致与VLA训练一致。然而，在训练的某个阶段，两条路径会分岔到不同的区域，这导致了目前观察到的VLM和VLA之间的潜在差距。这也解释了为什么VLM预训练对VLA至关重要，但两者之间仍存在明显差距。

局限性与机会

没有真机测试。

TLDR#

Metadata#

Problem Definition#

研究问题#

形式化定义#

价值与意义#

Challenges#

本文针对性解决的挑战#

Angle & Motivation#

切入角度#

创新性#

Methodology#

实现细节#

逻辑闭环#

Experiments#

通用 VLM 性能基准测试 (Performance Analysis)#

VLM 通用能力与 VLA 性能的相关性分析#

辅助具身任务的影响 (Impact of Auxiliary Tasks)#

模态重要性与视觉鸿沟消融 (Modality-level Ablation)#

视觉 vs 语言模块#

视觉鸿沟的本质分析#

视觉表征的“分歧”实验#

训练下限：从零开始训练 (From Scratch)#

Summary & Evaluation#

总体评价#

值得 Follow 的点#

局限性与机会#