TLDR
本文证明了 VLM 的通用评测分数与其在机器人控制任务中的表现并不正相关。视觉编码器是 VLA 性能的核心瓶颈,且现有的“具身 VQA”微调对实际动作控制提升微乎其微。
VLM4VLA 通过构建极简的 1% 参数适配插件,设计了标准化的 VLM4VLA 流水线,剥离了策略头架构的干扰,纯粹评估 VLM 骨干网络对控制性能的贡献。一共评估了 24 种 VLM 变体,系统性地揭示了通用 VLM 的能力与具身控制性能之间的非线性关系,并指明视觉模块是决定 VLA 成败的核心瓶颈。
Metadata
- 发表期刊/会议:arXiv
- 论文作者:Jianke Zhang1, Xiaoyu Chen1, Qiuyue Wang2, Mingsheng Li2, Yanjiang Guo1, Yucheng Hu1 Jiajun Zhang2, Shuai Bai2, Junyang Lin2, Jianyu Chen1
- 研究机构:Institute for Interdisciplinary Information Sciences, Tsinghua University、 Qwen Team, Alibaba Inc.
- 论文链接:https://arxiv.org/abs/2601.03309
- 关键词:VLA, VLM, Robotic Manipulation、GAP between VLA and VLM
- **Code & Dataset & Weight:**https://cladernyjorn.github.io/VLM4VLA.github.io/
- BibTeX:
@misc{zhang2026vlm4vlarevisitingvisionlanguagemodelsvisionlanguageaction, title={VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models}, author={Jianke Zhang and Xiaoyu Chen and Qiuyue Wang and Mingsheng Li and Yanjiang Guo and Yucheng Hu and Jiajun Zhang and Shuai Bai and Junyang Lin and Jianyu Chen}, year={2026}, eprint={2601.03309}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.03309}, }
Problem Definition
研究问题
现有的 VLA 模型普遍将预训练 VLM 作为核心骨干,但业界缺乏系统性的研究来回答:VLM 的选择及其通用能力如何量化地转化为下游机器人的操作性能?
形式化定义
输入为单视角图像 $I$ 与自然语言指令 $L$,输出为连续的动作块 $A \in \mathbb{R}^{T \times D}$。研究重点在于函数 $f_{VLA}(I, L)$ 中 $f_{VLM}$ 组件的贡献度。
$$ \text{action} = \text{MLP}\left( \text{VLM}\left( \left[ \langle \text{img} \rangle, \dots, \langle \text{img} \rangle, \langle \text{text} \rangle, \dots, \langle \text{text} \rangle, \langle \text{ActionQuery} \rangle \right] \right) \right) $$
价值与意义
通过厘清 VLM 与 VLA 的解耦关系,指导后续研究避开“盲目扩大模型规模”或“无效辅助微调”的误区。
Challenges
本文针对性解决的挑战
解决了评估不公平的问题。通过设计一个统一的 1% 参数插件的评估架构,排除了因策略头设计复杂程度不同而导致的性能差异。
Angle & Motivation
切入角度
极简适配。作者不使用复杂的扩散模型或流匹配为评估造成不必要的干扰,而是采用简单的 MLP 结构,尽可能消除策略头的影响,以观察 VLM 原始权重的表征潜力。
创新性
长期以来,学术界倾向于认为 VLM 在通用语义理解上的提升会自然转化为具身控制能力的增强。本文通过严谨的分析,打破了这一固有范式,证明了通用语义能力与低层动作控制之间存在显著的解耦现象。目前部分研究热衷于通过“具身问答”或“几何感知任务”对 VLM 进行后训练。本文通过多组对比实验证明,此类任务对下游控制的提升微乎其微,指出了感知语义与动作执行之间的特征空间分叉。本文提出的 VLM4VLA 框架以“极简主义”为核心,通过剥离复杂的策略头(Policy Head),实现了对 VLM 骨干网络(Backbone)性能的直接溯源。
Methodology


实现细节
架构设计:引入 $\langle ActionQuery \rangle$ Token,提取 VLM 最后的 Hidden State,接入简易 MLP。
训练协议:全参数微调,包含 LLM、Vision Encoder 及 Word Embeddings。
损失函数:采用 Huber Loss 处理连续动作 $a_{pos}$,BCE Loss 处理夹爪状态 $a_{end}$。
$$ \text{action} = \text{MLP}\left( \text{VLM}\left( \left[ \langle \text{img} \rangle, \dots, \langle \text{img} \rangle, \langle \text{text} \rangle, \dots, \langle \text{text} \rangle, \langle \text{ActionQuery} \rangle \right] \right) \right) $$
$$ L = \frac{1}{|B|} \sum_{B} \left( \frac{| a_{pos} - \hat{a}{pos} |^2}{2} + \text{BCE}(a{end}, \hat{a}_{end}) \right) \quad (1) $$
逻辑闭环
方法通过严格的“控制变量”,确保所有性能增益均来源于 VLM 骨干权重的调整,直接回应了“VLM 能力转化”的研究命题。
Experiments
通用 VLM 性能基准测试 (Performance Analysis)
作者评估了 9 种开源 VLM(1B-30B 参数规模)在统一 VLM4VLA 框架下的表现。具体可见table1、table2
- 核心发现 1:模型规模不等于控制能力。 在 Simpler-Bridge 和 Libero-Long 任务中,参数量最小的模型 Kosmos-2 取得了最高的成功率,显著优于规模更大的 Qwen 系列。这表明在底层控制任务中,基于坐标定位(Grounding)的预训练比通用语义推理更有效。
- 核心发现 2:Qwen 系列在语义泛化任务中占优。 在 Calvin ABC-D 任务(对指令理解和场景泛化要求高)中,Qwen2.5/3VL 系列表现出极强的竞争力,其平均完成任务数接近目前的 SOTA 专家模型。
VLM 通用能力与 VLA 性能的相关性分析
作者将 VLM 在 18 个通用 VQA 榜单(如 MMMU, MathVista, GPQA 等)的平均分与 VLA 任务成功率进行线性回归分析。
- Calvin 基准(高度正相关):拟合曲线显示出强线性关系,表明能处理复杂 VQA 任务的模型通常也能较好地完成 Calvin 中的语义指令任务。
- Simpler & Libero 基准(无显著相关性):线性回归的 $R^2$ 极低,曲线近乎水平。
- 结论:现有的 VLM 通用评测标准无法预测其在精密物理操纵任务中的潜力。
辅助具身任务的影响 (Impact of Auxiliary Tasks)
为了验证“教模型说话是否能让它更会干活”,作者测试了 7 种辅助微调任务(SFT)的效果:
- 任务类型:
- 几何感知:Robopoint(2D 坐标预测)、Vica(尺寸/距离估算)。
- 动作逻辑:Robo2vlm(动作轨迹判断)、Robobrain2。
- 视觉生成:Omni-Generation(深度图、语义分割图生成)。
- 实验结果: 与未经辅助微调的原始模型(Baseline)相比,所有经过辅助任务微调的模型性能均出现退化。
- 结论:单纯在语义层面引入具身问答任务,无法弥合底层动作控制所需的精细表征差距。
模态重要性与视觉鸿沟消融 (Modality-level Ablation)
视觉 vs 语言模块
作者对比了冻结(Freeze)与微调(Unfreeze)不同模块的效果:如table3
- 视觉编码器(Vision Encoder):冻结该模块会导致所有模型性能断崖式下跌。即便 7B 模型的 LLM 部分保持训练,其表现依然不如视觉层全微调的 3B 模型。
- 语言模块与词嵌入:冻结词嵌入对 VLA 性能几乎没有负面影响。
- 结论:视觉表征的重塑是 VLA 训练的核心。
视觉鸿沟的本质分析
为了探究视觉退化的原因,作者进行了两组进阶实验:
- 分辨率实验:将分辨率从 224 提升至 768,结果显示性能提升极微小。证明瓶颈不在于像素清晰度,而在于特征的对齐方式。table 7
- Real-to-Sim 验证:在全真实的 BridgeV2 图像上进行控制任务训练。实验发现即使没有模拟器的视觉噪声,冻结视觉层依然无法实现有效控制。解冻后,通过微调向视觉编码器里注入控制特征,成功率显著提高。 table 4
- 结论:VLM 学习的是“理解型特征”,而 VLA 需要“控制型特征”,两者在表征空间的轨迹会发生分叉。
视觉表征的“分歧”实验
除了 Figure 4,论文中另一个极具理论价值的图表是 Figure 5,它从表征学习的角度解释了为什么 Figure 4 会出现负面结果。
- 图表含义:Figure 5 描绘了 VLM 预训练路径与 VLA 动作学习路径在特征空间中的轨迹。
- 轨迹分叉论:
- 初期一致:在训练初期,两者的空间方向大致相同(都需要理解世界、识别物体)。
- 后期分叉:随着任务深入,VLM 向“语义推理”靠拢,而 VLA 向“精细控制”靠拢。这解释了为什么只做语义层面的 VQA 微调(Figure 4 的内容)无法弥合最终的控制鸿沟。

训练下限:从零开始训练 (From Scratch)
为了证明 VLM 预训练的必要性,作者随机初始化了相同架构的模型并直接在机器人数据上训练:
- 结果:所有模型在所有基准测试中均表现出灾难性的性能崩溃(Success Rate 趋近于 0)。
- 结论:VLM 预训练虽不足以支撑控制,但它提供了机器人理解世界、泛化任务所必需的底层语义先验。
Summary & Evaluation
总体评价
作者通过多次实验给出一个“负面”结论(通用能力不等于控制能力),很有批判性价值。通过剥离 99% 的参数干扰,只用 1% 的极简插件(Minimalist Adaptation)做横向对比,这种控制变量的思维值得学习。
有时间再看一遍。
值得 Follow 的点
从特征学习的角度来看,VLM训练中表示学习的整体空间方向大致与VLA训练一致。然而,在训练的某个阶段,两条路径会分岔到不同的区域,这导致了目前观察到的VLM和VLA之间的潜在差距。这也解释了为什么VLM预训练对VLA至关重要,但两者之间仍存在明显差距。
局限性与机会
没有真机测试。