TLDR

Evo-0 模型通过引入一个隐式几何特征融合模块 (VGGT),解决了现有 VLA 模型因 2D 预训练导致的 3D 空间感知缺失问题。设计了一个“即插即用”的几何感知支路,利用视觉几何基础模型(VGFM)提供深度感知,而无需依赖物理深度传感器。在 RLBench 模拟器中比基准模型 $\pi_0$ 成功率提升 15%;在现实世界任务中平均成功率提升 28.88%,且在干扰环境下表现出极强的鲁棒性。

Metadata

  • 发表期刊/会议:arXiv

  • 论文作者:Tao Lin∗, Gen Li∗, Yilei Zhong, Yanwen Zou, Yuxin Du, Jiting Liu, Encheng Gu4, Bo Zhao†

  • 研究机构:1School of AI, Shanghai Jiao Tong University, 2EvoMind Tech, 3IAAR-Shanghai, 4University of Cambridge

  • 论文链接:https://arxiv.org/abs/2507.00416

  • 关键词

  • Code & Dataset & Weight: https://mint-sjtu.github.io/Evo-0.io/

  • BibTeX

  • @article{lin2025evo,
      title={Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding},
      author={Lin, Tao and Li, Gen and Zhong, Yilei and Zou, Yanwen and Zhao, Bo},
      journal={arXiv preprint arXiv:2507.00416},
      year={2025}
    }
    

Problem Definition

研究问题

现有的 VLA 模型(如 OpenVLA)在处理需要高精度空间对齐的任务(如“销钉入孔”)时经常失败,根本原因在于其骨干网络(VLM)是在 2D 互联网图片上预训练的,缺乏对物理世界深度和几何结构的理解。

形式化定义

输入多视角 RGB 图像 ${I_t^i}$、指令 $L$ 和机器人状态 $S_t$;输出连续或离散动作 $A_t$。目标是最大化 $p(A_t | I_t^i, L, S_t)$。

价值与意义

为机器人提供“空间感”,使其能处理复杂、精密的操作任务,同时避免增加昂贵的 3D 传感器,降低部署成本。

Challenges

核心挑战

数据稀缺:高质量的机器人 3D 标注数据(点云/深度)远少于 2D 互联网数据。

传感器噪声:深度相机在面对透明物体或反光表面时表现极差。

本文针对性解决的挑战

如何在仅使用 RGB 输入的前提下,让模型“脑补”出 3D 几何特征。这种选择非常合理,因为它兼容了现有的所有单目/多目相机硬件。

Angle & Motivation

切入角度

隐式 3D 先验注入。不直接输入 3D 数据,而是借用一个已经学过“如何从 2D 重建 3D”的基础模型(VGGT)作为特征提取器。

合理性与重要性

VGGT 在大规模 2D-3D 配对数据上练过,它对物体轨迹和遮挡关系有天生的直觉。

创新性

打破了“3D 任务必须用 3D 传感器”或“语义和几何必须在同一个 Encoder 里学”的固有范式,采用了并行双支路编码

Methodology

实现细节

双编码器架构:保持 $\pi_0$ (PaliGemma) 提取语义,增加一个冻结的 VGGT 提取 3D $Tokens$。

Cross-attention 融合器:以 2D 视觉 $Tokens$ 为 $Query$,去 $VGGT$ 的 3D $Tokens$ 中寻找空间对应信息。

参数高效微调:只训练融合模块和 VLM 的 LoRA 层,保护了原有的语义知识。

性能提升的本质

通过交叉注意力将语义锚定(这是什么)与几何定位(在哪里)在特征层面进行了强行对齐。

Experiments

实验设置与指标

RLBench 仿真环境(5个任务)+ 现实世界(5个精密任务,含透明物体)。

对比实验

对比了 OpenVLA-OFT 和 $\pi_0$。在所有维度(成功率、泛化性)上均有提升。

真实世界任务:

![image-20260125040349819](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125040349819.png)

鲁棒性测试:

![image-20260125040416949](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125040416949.png)

消融实验

验证了训练步数对性能的影响,证明了 Evo-0 的样本效率极高(更短的训练时间达到更好的效果)。

Summary & Evaluation

总体评价

它没有去卷更大的算力或更多的数据,而是通过巧妙的模块设计解决了 VLA 的短板。