TLDR
GLaD 框架通过将 VGGT 的 3D 几何特征蒸馏至 LLM 最终隐藏状态,解决了 VLA 模型缺乏空间推理和易受视觉扰动影响的问题。提出了后期隐藏状态对齐(Late-stage Hidden State Alignment),将几何先验深度耦合进多模态决策过程,而非仅仅作为视觉输入。在 LIBERO 达到 94.1% 成功率(SOTA),在 LIBERO-PRO 物体扰动测试中比基线 UniVLA 提升了 19%~60%。
Metadata
发表期刊/会议:arXiv
论文作者:Minghao Guo, Meng Cao, Jiachen Tao, Rongtao Xu, Yan Yan, Xiaodan Liang, Ivan Laptev, Xiaojun Chang
研究机构:University of Illinois Chicago,MBZUAI
论文链接:https://arxiv.org/abs/2512.09619
关键词:Vision-Language-Action Models, Pretraining, Geometry Distillation, Robot Manipulation, Spatial Reasoning.
Code & Dataset & Weight:
BibTeX:
@misc{guo2025gladgeometriclatentdistillation, title={GLaD: Geometric Latent Distillation for Vision-Language-Action Models}, author={Minghao Guo and Meng Cao and Jiachen Tao and Rongtao Xu and Yan Yan and Xiaodan Liang and Ivan Laptev and Xiaojun Chang}, year={2025}, eprint={2512.09619}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2512.09619}, }
Problem Definition
研究问题
如何让仅依赖 2D 视觉编码器(如 SigLIP)的 VLA 模型获得理解 3D 空间结构、物体关系和深度的能力?
形式化定义
输入:RGB 图像序列 $O$ + 自然语言指令 $L$。
输出:机器人控制动作序列 $A$。
约束:在 LLM 的推理过程中,嵌入几何约束 $F_{3d}$。
Challenges
核心挑战
2D 预训练编码器(CLIP/SigLIP)擅长语义识别(这是什么),但不擅长几何定位(这在哪里、多远、什么形状)。
论文重点证明了通过几何蒸馏,可以防止模型过度依赖颜色、纹理等肤浅视觉特征(Pattern Matching),转向真正的物体属性理解。
Angle & Motivation
切入角度
知识蒸馏(Knowledge Distillation)。引入预训练的几何基座模型(VGGT)作为教师,在训练过程中通过 Loss 约束,将 3D 先验“注射”进 VLA。
合理性与重要性
文中通过图 1 证明了普通 VLA 会在物体堆叠时产生错误的 Attention。由于机器人操作本质上是 3D 任务,引入 3D 归纳偏置(Inductive Bias)是必然趋势。
Methodology
实现细节
Teacher: 冻结的 VGGT,提取单帧 3D 表征(深度、点云、相机参数)。
Student: LLaMA-2-7B + DINOv2/SigLIP。
Alignment: 通过一个两层 MLP,将 LLM 第 32 层(最后一层)对应视觉 Token 的隐藏状态投影到 VGGT 特征空间。
Loss: $L_{total} = L_{VLA} + \lambda \cdot ||H_{aligned} - F_{3d}||^2_2$
性能提升的本质
通过强迫 LLM 内部状态对齐几何特征,模型学会了关注物体的 3D 骨架(Affordance),从而在物体外观改变时依然能找准抓取点。
Experiments
实验设置与指标
LIBERO (130 任务) & LIBERO-PRO (鲁棒性),指标为 Success Rate (%)。
对比实验
在LIBERO上的鲁棒性实验:
在LIBERO基准上的对比实验:
消融实验
模型架构的消融实验:
Summary & Evaluation
总体评价
它没有改动 VLA 的基础算力结构,而是通过巧妙的蒸馏方案,低成本地解决了 2D VLA 的致命伤,实验论证逻辑严密。
值得 Follow 的点
- Hidden State 对齐方案:这种“不增加推理开销,只在训练时加约束”的思路非常适合工程落地。
- VGGT 作为特征源:VGGT 提供的几何特征比纯深度图更适合机器人。