Pluto's blog

TLDR

GLaD 框架通过将 VGGT 的 3D 几何特征蒸馏至 LLM 最终隐藏状态，解决了 VLA 模型缺乏空间推理和易受视觉扰动影响的问题。提出了后期隐藏状态对齐（Late-stage Hidden State Alignment），将几何先验深度耦合进多模态决策过程，而非仅仅作为视觉输入。在 LIBERO 达到 94.1% 成功率（SOTA），在 LIBERO-PRO 物体扰动测试中比基线 UniVLA 提升了 19%~60%。

Metadata

发表期刊/会议：arXiv
论文作者：Minghao Guo, Meng Cao, Jiachen Tao, Rongtao Xu, Yan Yan, Xiaodan Liang, Ivan Laptev, Xiaojun Chang
研究机构：University of Illinois Chicago,MBZUAI
论文链接：https://arxiv.org/abs/2512.09619
关键词：Vision-Language-Action Models, Pretraining, Geometry Distillation, Robot Manipulation, Spatial Reasoning.
Code & Dataset & Weight：
BibTeX：

@misc{guo2025gladgeometriclatentdistillation,
      title={GLaD: Geometric Latent Distillation for Vision-Language-Action Models}, 
      author={Minghao Guo and Meng Cao and Jiachen Tao and Rongtao Xu and Yan Yan and Xiaodan Liang and Ivan Laptev and Xiaojun Chang},
      year={2025},
      eprint={2512.09619},
      archivePrefix={arXiv},
      primaryClass={cs.RO},
      url={https://arxiv.org/abs/2512.09619}, 
}

Problem Definition

研究问题

如何让仅依赖 2D 视觉编码器（如 SigLIP）的 VLA 模型获得理解 3D 空间结构、物体关系和深度的能力？

形式化定义

输入：RGB 图像序列 $O$ + 自然语言指令 $L$。

输出：机器人控制动作序列 $A$。

约束：在 LLM 的推理过程中，嵌入几何约束 $F_{3d}$。

Challenges

核心挑战

2D 预训练编码器（CLIP/SigLIP）擅长语义识别（这是什么），但不擅长几何定位（这在哪里、多远、什么形状）。

论文重点证明了通过几何蒸馏，可以防止模型过度依赖颜色、纹理等肤浅视觉特征（Pattern Matching），转向真正的物体属性理解。

Angle & Motivation

切入角度

知识蒸馏（Knowledge Distillation）。引入预训练的几何基座模型（VGGT）作为教师，在训练过程中通过 Loss 约束，将 3D 先验“注射”进 VLA。

合理性与重要性

文中通过图 1 证明了普通 VLA 会在物体堆叠时产生错误的 Attention。由于机器人操作本质上是 3D 任务，引入 3D 归纳偏置（Inductive Bias）是必然趋势。

Methodology

实现细节

Teacher: 冻结的 VGGT，提取单帧 3D 表征（深度、点云、相机参数）。

Student: LLaMA-2-7B + DINOv2/SigLIP。

Alignment: 通过一个两层 MLP，将 LLM 第 32 层（最后一层）对应视觉 Token 的隐藏状态投影到 VGGT 特征空间。

Loss: $L_{total} = L_{VLA} + \lambda \cdot ||H_{aligned} - F_{3d}||^2_2$

性能提升的本质

通过强迫 LLM 内部状态对齐几何特征，模型学会了关注物体的 3D 骨架（Affordance），从而在物体外观改变时依然能找准抓取点。

Experiments

实验设置与指标

LIBERO (130 任务) & LIBERO-PRO (鲁棒性)，指标为 Success Rate (%)。

对比实验

在LIBERO上的鲁棒性实验：

在LIBERO基准上的对比实验：

消融实验

模型架构的消融实验：

Summary & Evaluation

总体评价

它没有改动 VLA 的基础算力结构，而是通过巧妙的蒸馏方案，低成本地解决了 2D VLA 的致命伤，实验论证逻辑严密。

值得 Follow 的点

Hidden State 对齐方案：这种“不增加推理开销，只在训练时加约束”的思路非常适合工程落地。
VGGT 作为特征源：VGGT 提供的几何特征比纯深度图更适合机器人。

TLDR#

Metadata#

Problem Definition#

研究问题#

形式化定义#

Challenges#

核心挑战#

Angle & Motivation#

切入角度#

合理性与重要性#

Methodology#

实现细节#

性能提升的本质#

Experiments#

实验设置与指标#

对比实验#

消融实验#

Summary & Evaluation#

总体评价#

值得 Follow 的点#