TLDR
ActiveVLA 通过 Coarse-to-fine(由粗到精) 的主动感知框架,解决了现有 VLA 模型因静态视角导致的遮挡与分辨率不足问题。引入了基于 3D 点云的**主动视角选择(Active View Selection)与虚拟 3D 缩放(Active 3D Zoom-in)**机制,使机器人具备了“想看哪里看哪里”的能动性。在 RLBench 上达到了 91.8% 的 SOTA 成功率;在 COLOSSEUM 鲁棒性测试中以 65.9% 领跑。
Metadata
- 发表期刊/会议:arXiv
- 论文作者:Zhenyang Liu1,2, Yongchong Gu1, Yikai Wang3,* Xiangyang Xue1,† Yanwei Fu1,
- 研究机构:Fudan University 2Shanghai Innovation Institute 3Nanyang Technological University
- 论文链接:https://arxiv.org/html/2601.08325v1
- 关键词:
- Code & Dataset & Weight: https://zhenyangliu.github.io/ActiveVLA/
- BibTeX:
@misc{liu2026activevlainjectingactiveperception, title={ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation}, author={Zhenyang Liu and Yongchong Gu and Yikai Wang and Xiangyang Xue and Yanwei Fu}, year={2026}, eprint={2601.08325}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2601.08325}, }
Problem Definition
研究问题
如何提升机器人由于视角受限而在复杂、精细化长时程任务中的操作成功率?
形式化定义
输入:多视角 RGB-D 图像 $o$ + 自然语言指令 $l$。
输出:由 6-DoF 位姿 $T$、夹爪状态 $g$ 和碰撞检测 $c$ 组成的连续动作序列。
Challenges
核心挑战
感知的被动性。静态相机在手部接近物体时必然产生遮挡,且固定分辨率无法兼顾“全局语义”与“局部细节”。
Angle & Motivation
切入角度
主动视觉(Active Vision)。借鉴心理学家 Richard Gregory 的“感知即假设检验”理论,将机器人从“被动观察者”转变为“主动信息搜集者”
创新性
它打破了“VLA = 大模型推理 + 静态图输入”的固有范式,引入了几何约束下的反馈调节机制。
Methodology
实现细节

1. 粗略阶段 (Coarse Stage):关键区域定位
- 7 通道渲染:将 3D 点云投影为包含 RGB (3) + Depth (1) + World Coords (3) 的 2D 图像,确保 VLM 能理解 3D 结构。
- 热力图预测:利用凸上采样(Convex Upsampling)从 VLM 的 Token 中恢复高分辨率热力图 $H = U(\text{Rearrange}{t_i})$。
2. 精细阶段 (Fine Stage):主动感知优化
视角选择 (A-VS):在球面上均匀采样,通过公式评估:
$$s_i = w_{vis} \cdot s_{vis} + w_{dis} \cdot s_{dis} + w_{div} \cdot s_{div}$$
平衡可见性、距离、多样性,选出最互补的 $K$ 个视角。
3D 缩放 (A-3Z):根据 $W(z) = 2d \tan \frac{\alpha}{2z}$ 调整视场角,实现无损的虚拟光学变焦,获取高密度特征。
3. 动作预测 (Action Prediction)
- 空间投票:通过反向投影在离散 3D 网格上进行多视图评分累加 $S(g) = \sum w_v h_v$。
- 特征融合:拼接全局语义 Token 与局部 ROI Token,通过 MLP 预测离散化的旋转角度。
Experiments
实验设置与指标
, , 。
对比实验
COLOSSEUM
RLBench
GemBench

消融实验


Summary & Evaluation
值得 Follow 的点
- 7 通道投影技术:这是将 3D 结构喂给 2D VLM 的极佳方案。
- 多目标评分函数:其视角多样性评分公式可直接用于其他多相机系统。