Pluto's blog

TLDR

ActiveVLA 通过 Coarse-to-fine（由粗到精） 的主动感知框架，解决了现有 VLA 模型因静态视角导致的遮挡与分辨率不足问题。引入了基于 3D 点云的**主动视角选择（Active View Selection）与虚拟 3D 缩放（Active 3D Zoom-in）**机制，使机器人具备了“想看哪里看哪里”的能动性。在 RLBench 上达到了 91.8% 的 SOTA 成功率；在 COLOSSEUM 鲁棒性测试中以 65.9% 领跑。

Metadata

发表期刊/会议：arXiv
论文作者：Zhenyang Liu1,2, Yongchong Gu1, Yikai Wang3,* Xiangyang Xue1,† Yanwei Fu1,
研究机构：Fudan University 2Shanghai Innovation Institute 3Nanyang Technological University
论文链接：https://arxiv.org/html/2601.08325v1
关键词：
Code & Dataset & Weight： https://zhenyangliu.github.io/ActiveVLA/
BibTeX：

@misc{liu2026activevlainjectingactiveperception,
      title={ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation}, 
      author={Zhenyang Liu and Yongchong Gu and Yikai Wang and Xiangyang Xue and Yanwei Fu},
      year={2026},
      eprint={2601.08325},
      archivePrefix={arXiv},
      primaryClass={cs.RO},
      url={https://arxiv.org/abs/2601.08325}, 
}

Problem Definition

研究问题

如何提升机器人由于视角受限而在复杂、精细化长时程任务中的操作成功率？

形式化定义

输入：多视角 RGB-D 图像 $o$ + 自然语言指令 $l$。

输出：由 6-DoF 位姿 $T$、夹爪状态 $g$ 和碰撞检测 $c$ 组成的连续动作序列。

Challenges

核心挑战

感知的被动性。静态相机在手部接近物体时必然产生遮挡，且固定分辨率无法兼顾“全局语义”与“局部细节”。

Angle & Motivation

切入角度

主动视觉（Active Vision）。借鉴心理学家 Richard Gregory 的“感知即假设检验”理论，将机器人从“被动观察者”转变为“主动信息搜集者”

创新性

它打破了“VLA = 大模型推理 + 静态图输入”的固有范式，引入了几何约束下的反馈调节机制。

Methodology

实现细节

![image-20260125033619309](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125033619309.png)

1. 粗略阶段 (Coarse Stage)：关键区域定位

7 通道渲染：将 3D 点云投影为包含 RGB (3) + Depth (1) + World Coords (3) 的 2D 图像，确保 VLM 能理解 3D 结构。
热力图预测：利用凸上采样（Convex Upsampling）从 VLM 的 Token 中恢复高分辨率热力图 $H = U(\text{Rearrange}{t_i})$。

2. 精细阶段 (Fine Stage)：主动感知优化

视角选择 (A-VS)：在球面上均匀采样，通过公式评估：
$$s_i = w_{vis} \cdot s_{vis} + w_{dis} \cdot s_{dis} + w_{div} \cdot s_{div}$$
平衡可见性、距离、多样性，选出最互补的 $K$ 个视角。
3D 缩放 (A-3Z)：根据 $W(z) = 2d \tan \frac{\alpha}{2z}$ 调整视场角，实现无损的虚拟光学变焦，获取高密度特征。

3. 动作预测 (Action Prediction)

空间投票：通过反向投影在离散 3D 网格上进行多视图评分累加 $S(g) = \sum w_v h_v$。
特征融合：拼接全局语义 Token 与局部 ROI Token，通过 MLP 预测离散化的旋转角度。

Experiments

实验设置与指标

, , 。

对比实验

COLOSSEUM

RLBench

GemBench

![image-20260125033652056](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125033652056.png)

消融实验

![image-20260125033703295](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125033703295.png)

![image-20260125033715688](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125033715688.png)

Summary & Evaluation

值得 Follow 的点

7 通道投影技术：这是将 3D 结构喂给 2D VLM 的极佳方案。
多目标评分函数：其视角多样性评分公式可直接用于其他多相机系统。

TLDR#

Metadata#

Problem Definition#

研究问题#

形式化定义#

Challenges#

核心挑战#

Angle & Motivation#

切入角度#

创新性#

Methodology#

实现细节#

1. 粗略阶段 (Coarse Stage)：关键区域定位#

2. 精细阶段 (Fine Stage)：主动感知优化#

3. 动作预测 (Action Prediction)#

Experiments#

实验设置与指标#

对比实验#

消融实验#

Summary & Evaluation#

值得 Follow 的点#