TLDR

X-Distill 框架通过在通用数据集上将大型 DINOv2 (ViT) 的特征蒸馏至紧凑的 ResNet-18 (CNN),成功解决了视觉运动策略在小样本数据下的优化难题与泛化瓶颈。论文提出了跨架构知识蒸馏方案,将 ViT 的全局语义先验与 CNN 固有的强归纳偏置(局部性、平移等变性)完美结合。在 34 个仿真任务中仅凭 10 个演示样本即达到 SOTA,在写字等高精度任务中成功率远超 $\pi_0$ (VLA) 和 3D 策略。

![image-20260123200336861](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123200336861.png)

Metadata

  • 发表期刊/会议:arXiv
  • 论文作者:Maanping Shao#, Feihong Zhang#, Gu Zhang, Baiye Cheng, Zhengrong Xue, Huazhe Xu†
  • 研究机构:Institute for Interdisciplinary Information Sciences, Tsinghua University, Shanghai Qi Zhi Institute and Shanghai Artificial Intelligence Laboratory.
  • 论文链接:https://arxiv.org/abs/2601.11269
  • 关键词:Visuomotor Policy, Knowledge Distillation, Representation Learning, Manipulation
  • Code & Dataset & Weight: 没开源
  • BibTeX
  • @misc{shao2026xdistillcrossarchitecturevisiondistillation,
          title={X-Distill: Cross-Architecture Vision Distillation for Visuomotor Learning}, 
          author={Maanping Shao and Feihong Zhang and Gu Zhang and Baiye Cheng and Zhengrong Xue and Huazhe Xu},
          year={2026},
          eprint={2601.11269},
          archivePrefix={arXiv},
          primaryClass={cs.CV},
          url={https://arxiv.org/abs/2601.11269}, 
    }
    

Problem Definition

研究问题

如何在仅有少量专家演示样本的情况下,训练出既能精准操作又具备开放世界泛化能力的机器人视觉运动策略?

形式化定义

输入: 原始像素图像 $x$ + 机器人本体感受状态 $s$。

输出: 连续动作序列 $A$(通过 Diffusion Policy 生成)。

价值与意义

填补了“学术界小规模数据”与“大模型高数据需求”之间的鸿沟,让高性能机器人策略的开发不再依赖于昂贵的数据采集工厂。

Challenges

核心挑战

ViT 的“数据饥渴”与 CNN 的“语义贫乏”。ViT 缺乏归纳偏置,在小数据下极难收敛;CNN 虽然好练,但缺乏对物理世界的深层语义理解。

本文针对性解决的挑战

重点攻克了低数据量下的模型优化难题。在只有 10-25 条轨迹时,传统 VLA 或从头训练的 CNN 往往会过拟合噪声,而本文通过蒸馏引入的高质量先验让模型在起跑线上就具备了“常识”。

Angle & Motivation

切入角度

跨架构蒸馏(Cross-Architecture Distillation)。不再纠结于微调大模型,而是将大模型作为“特征源”,离线训练一个小而精的编码器。

创新性

打破了“大模型必须直接部署”的思维定式,证明了**“降级使用架构,升级使用知识”**在具身智能中的独到价值

Methodology

![image-20260123200217119](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123200217119.png)

实现细节

阶段一(蒸馏): 在 ImageNet 上通过 MSE 损失函数,让 ResNet-18 模仿冻结的 DINOv2-L 的 [CLS] token。

$$L_{KD} = \mathbb{E}_{x \sim \mathcal{X}} [ |f_T(x) - f_S(x)|^2_2 ]$$

阶段二(微调): 将蒸馏后的 ResNet 与 Diffusion Policy 结合,在机器人数据上进行端到端联合微调

逻辑闭环

第一阶段解决“通用感知”,第二阶段通过联合训练解决“任务适配”,逻辑清晰,无冗余。

性能提升的本质

成功将 ImageNet 上的通用视觉语义转化为了机器人所需的任务相关特征可分性

Experiments

实验设置与指标

仿真基准 (34个任务)

  • MetaWorld: 平行夹持器操作(涵盖 Easy, Medium, Hard, Very Hard 四种难度)。
  • Adroit: 灵巧手运动技能。
  • DexArt: 关节物体操作(如开马桶盖、开柜子)。
  • 数据量: 每个任务仅 10 条 专家轨迹(极低数据量)。

真实世界 (5个任务)

  • 任务列表: 移动方块 (Move Cube)、移动笔刷 (Move Brush)、书写“AGI” (Writing “AGI”)、开抽屉 (Drawer Open)、关门 (Door Close)。
  • 数据量: 每个任务 20-25 条 演示(通过 VR 遥操作采集)。

评估指标: 3个随机种子的最高成功率 (Success Rate) 平均值。

仿真实验

实验设置 (Setup): 为了全面评估 X-Distill 的有效性,研究团队在 3 个基于 MuJoCo 的机器人操作基准测试中进行了共计 34 个任务的实验,结果如table 1所示:

  • 基准测试:包括来自 MetaWorld 的平行夹持器任务、Adroit 的灵巧手技能任务以及 DexArt 的关节物体操作任务。
  • 专家演示:每个仿真任务仅收集 10 条 轨迹(MetaWorld 采用脚本策略,其余采用 RL 训练的智能体收集)。
  • 评估指标:报告 3 个随机种子的最高平均成功率。

实验结果 (Performance)

  • 全线领先:X-Distill 在所有 34 个任务中实现了最佳整体性能,一致性地以显著优势领先于所有 2D 视觉基准线(如从头训练的 ResNet、DINOv2、Depth-Anything 等)。
  • 空间推理先验:即使在几何要求极高、通常需要 3D 信息的任务(如 DexArt-Toilet)中,作为 2D 方法的 X-Distill 依然表现出极强的竞争力,展现了强大的空间推理先验。

![image-20260123201220490](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123201220490.png)

真机实验

  • 实验设置 (Setup)
    • 硬件平台:使用 X-Arm 6 机器人臂,通过 15Hz 的网络摄像头捕获图像。
    • 数据采集:通过 Meta-Quest VR 遥操作为每个任务准备 20 ~ 25 条 演示轨迹。
    • 任务设计:设计了包括移动方块(Move Cube)、移动笔刷(Move Brush)、书写“AGI”、开抽屉以及关门在内的 5 个桌面任务。
    • 测试条件:严格定义了分布内(ID)和分布外(OOD)的物体随机化范围,并包含人为动态扰动测试。
  • 实验结果 (Results)
    • 优于 SOTA VLA:X-Distill 在 ID 和 OOD 设置下均获得了最高成功率。相比之下,在小规模数据集上直接微调大型 VLA 模型 $\pi_0$ 在复杂的高精度任务(如书写“AGI”)中表现挣扎,性能降至零。
    • 架构优势:简单微调大模型(如 DINOv2)表现不佳,证明了在数据匮乏场景下,将知识迁移到紧凑、数据高效的 CNN 架构中的必要性。

![image-20260123200457744](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123200457744.png)

消融实验

  • 实验设置 (Setup):针对教师模型大小、学生模型架构偏置、学生模型参数量三个变量进行控制变量测试。结果如下

![image-20260123201235727](/Users/yangchao/Library/Application Support/typora-user-images/image-20260123201235727.png)

可视化分析

I:t-SNE 特征空间可分性

为了研究模型是否真的“听懂”了任务进度,作者对 Writing “AGI” 任务中的三个关键阶段(写 A/G/I 前)进行了特征降维分析:

  • X-Distill 表现:特征点形成了三个极其清晰的簇。这意味着模型能够通过视觉清晰分辨:“现在是写 A 的阶段,而不是写 G 的阶段”。
  • 对比组($\pi_0$ & ResNet-scratch):特征点高度重叠。这解释了为什么基准模型会反复写同一个字母或者在原地颤抖——因为它们在语义上已经“迷路”了。

II:显著性图 (Saliency Map) 动态注意力转移

作者通过 Grad-CAM 可视化了模型在操作过程中的“眼神”变化,揭示了 X-Distill 的智能本质:

  • 动态聚焦逻辑
    1. 初始阶段:模型紧盯机器人夹持器(明确执行主体)。
    2. 中间阶段:当纸上写好“A”后,注意力瞬间转移到**已写好的字母“A”**上(作为下一步的视觉反馈触发器)。
    3. 抗干扰表现:即使纸张被突然拖走,显著性区域也会迅速跟随纸张移动,展现了极强的闭环感知能力。
  • 对比结论:DINOv2 和 $\pi_0$ 的注意力始终僵死在某些区域,无法随任务进度进化,这是典型的欠拟合表现。

Summary & Evaluation

总体评价

论文不堆砌复杂的公式和超大的模型,而是精准捕捉到了机器人领域“数据少”这一痛点,用最经典的蒸馏手段打出了极高的上限。

值得 Follow 的点

  • 双阶段解耦思想:在通用大数据集(ImageNet)上练感知,在小规模机器人数据上练动作。
  • 特征评估维度:不仅仅看成功率,还要用 t-SNE 和 Saliency Map 证明模型“确实看懂了”,这对你撰写 VLA 论文具有极强的参考价值。