MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

核心摘要

该论文旨在解决应用于机器人领域的多模态大语言模型（Multimodal Large Language Models, MLLMs）因其巨大的计算和存储需求而难以在真实世界部署的问题。受神经科学中的“浅脑假说”（Shallow Brain Hypothesis）和机器学习中的“专家混合”（Mixture-of-Experts）技术启发，研究者提出了一种名为MoLe-VLA（或简称MoLe）的新型视觉-语言-动作（VLA）模型架构。其核心思想是将大语言模型的每一层视为一个独立的“专家”，并通过一个动态路由机制，根据当前任务需求有选择性地激活（即计算）一部分层，而跳过其他层，从而大幅降低计算成本。为了实现智能的层选择，论文设计了一个“时空感知路由器”（Spatial-Temporal Aware Router, STAR）。为了弥补因跳过层而可能损失的模型认知能力，论文还提出了一种“认知自知识蒸馏”（Cognition self-Knowledge Distillation, CogKD）方法。在仿真和真实机器人上的大量实验证明，MoLe-VLA架构在显著降低计算成本（最多减少约5.6倍）的同时，还能提升任务成功率（平均提升8%），在效率和性能上均表现出色。

研究背景与动机

现有VLA模型的困境：基于MLLM的视觉-语言-动作（VLA）模型，如RT-2和OpenVLA，已展现出强大的端到端机器人控制能力，能够泛化到未见过的物体和指令。然而，这些模型的巨大计算量（高内存、高功耗、高延迟）与机器人平台资源受限和实时性的要求产生了严重冲突。例如，一个7B参数的VLA模型在高端GPU上的推理频率约为5-12Hz，远低于机械臂所需的50-1000Hz控制频率。
LLM层的冗余性：研究发现，在机器人任务中，LLM的许多层存在同质化和冗余。例如，与使用6层相比，使用全部24层Flamingo模型仅带来3.2%的性能提升，但计算量增加了4倍。
现有效率提升方法的局限：早期的效率提升方法（如“早退”策略）倾向于直接丢弃模型的深层部分，但这可能导致对机器人任务至关重要的语义信息丢失。
核心启发：
1. 浅脑假说（SBH）：该神经科学理论指出，大脑通过结合深层级结构和浅层并行的回路来高效地进行认知和因果推理，这启发了在VLA模型中进行选择性层激活的策略。
2. 专家混合（MoE）：这是一种模型稀疏化技术，通过路由机制在同一层内水平激活部分“专家”网络。论文将其思想从“水平”扩展到“垂直”，实现了层与层之间的动态激活。

主要贡献

提出MoLe框架：受“浅脑假说”启发，提出了一个“层混合”（Mixture-of-Layers）框架，通过一个路由器动态激活模型中的部分层，模拟大脑的信号流，以提高模型效率。

设计STAR路由器：提出了一个新颖的层决策路由器，名为时空感知路由器（STAR）。它能充分利用机器人输入中的时空信息（视觉的空间特征和语言的时间依赖），从而做出更精准的层激活决策。

引入CogKD自知识蒸馏：设计了一种认知自知识蒸馏（CogKD）范式，用以恢复稀疏LLM因跳过层而损失的认知信息，从而在提升效率的同时保证甚至增强了模型的整体性能。

MoLe-VLA方法详解

3.1 混合层（MoLe）架构：动态层跳过机制

MoLe-VLA的核心是一个动态层跳过机制。它在LLM的输入端部署了一个轻量级的路由器。对于一个拥有K层的LLM，该路由器会根据输入数据，生成一个决策向量，决定在这K层中，哪些层需要被执行计算，哪些层可以直接跳过（通过残差连接将输入直接传递到下一层）。这种垂直方向的层级稀疏化避免了对所有层进行冗余计算，从而显著提升了推理效率和响应速度，特别适合需要实时处理的机器人任务。

3.2 时空感知路由器（STAR）

为了让层跳过决策更加智能，论文设计了STAR路由器。传统路由器通常是简单的线性层，无法有效捕捉机器人任务中至关重要的时空信息。STAR的特点如下：

多模态处理：它能分别处理来自视觉输入的空间特征和来自语言指令的时间依赖特征。
动态融合：将提取出的时空特征进行融合，并根据当前环境的需求动态地为LLM的每一层生成一个激活概率。
Top-k选择：通过Gumbel-Softmax等技术，选择概率最高的k个层进行激活，其余层则被跳过。
通过这种方式，STAR确保了模型能够根据动态变化的环境和任务指令，自适应地调动最相关的计算资源。

3.3 认知自知识蒸馏（CogKD）

层跳过在提升效率的同时，不可避免地会削弱模型的认知表达能力。为解决此问题，论文提出了CogKD。

师生模型：原始的全层VLA模型作为“教师”，而经过层跳过的MoLe模型作为“学生”。
认知令牌（Cognition Token）：引入一个可学习的“认知令牌”，它能有效整合视觉和语言信息，帮助模型理解任务需求。
自适应蒸馏：通过计算“认知令牌”与模型中其他令牌的相似度，识别出对任务最重要的“兴趣令牌”（Tokens of Interest, ToIs）。知识蒸馏过程会根据这些兴趣令牌进行加权，引导学生模型重点学习教师模型中的关键认知特征，从而在保持层跳过带来的高效率的同时，弥补认知能力的损失。

实验结果与分析

4.1 仿真环境（RLBench）

性能与效率对比：在RLBench的10项任务中，MoLe-CogAct（在CogAct模型基础上应用MoLe架构）在仅使用50% LLM层的情况下，取得了60.8%的平均成功率，不仅超过了原始的CogAct模型（57.2%），也优于DeeR（59.2%）等其他效率提升方法。同时，其计算量（GFLOPs）降低了约一半。
推理速度：MoLe架构能带来显著的推理速度提升，最高可达2倍。即使在仅保留19%计算量的情况下，模型性能仍保持相对稳定。
量化分析：在更贴近真实部署的8-bit量化场景下，MoLe在RTX 4090D上实现了15.7Hz的推理频率，GPU内存占用减少了45%，同时成功率依然高于未量化的基线模型（基线模型为9.8Hz）。
可扩展性：在不同模型规模（小、基础、大）下，MoLe架构均能带来稳定的性能提升，证明了其良好的可扩展性。

4.2 真实世界评估

在Franka FR3机械臂上进行了三项真实世界任务的评估（拔掉充电器、拉开抽屉、倒水）。结果显示，MoLe模型取得了70.0%的平均成功率，优于基线模型CogAct的66.7%。特别是在需要精确3D位姿控制的“倒水”任务中，MoLe达到了80%的成功率，证明了它在大幅降低计算成本后，依然保留了强大的3D空间理解和精确预测能力。

4.3 失败案例分析

论文分析了模型在真实世界中的失败案例，主要归为三类：

控制失误：在与物体交互时因力量控制不当或表面光滑导致滑脱。
旋转预测错误：在需要精确角度控制的任务中出现累积误差。
超出物理极限的预测：模型生成的动作指令超出了机械臂的活动范围。

这些失败案例表明，通过层跳过提升效率的同时，也可能在一定程度上降低了模型在精细控制和空间理解上的表达能力。

结论

论文提出的MoLe-VLA是一个受神经科学启发的、用于优化机器人VLA模型的创新框架。它通过动态层跳过机制和智能的STAR路由器，有效减少了LLM的计算冗余；同时通过CogKD知识蒸馏技术弥补了稀疏化带来的认知损失。在仿真和真实世界中的实验充分证明，MoLe能够在大幅降低计算成本的同时，保持甚至提升机器人操控任务的性能，为构建高效、自适应的机器人系统提供了新的解决方案。

核心摘要#

研究背景与动机#

主要贡献#

MoLe-VLA方法详解#

3.1 混合层（MoLe）架构：动态层跳过机制#

3.2 时空感知路由器（STAR）#

3.3 认知自知识蒸馏（CogKD）#

实验结果与分析#

4.1 仿真环境（RLBench）#

4.2 真实世界评估#

4.3 失败案例分析#

结论#