Posts

TLDR ActiveVLA 通过 Coarse-to-fine（由粗到精）的主动感知框架，解决了现有 VLA 模型因静态视角导致的遮挡与分辨率不足问题。引入了基于 3D 点云的**主动视角选择（Active View Selection）与虚拟 3D 缩放（Active 3D Zoom-in）**机制，使机器人具备了“想看哪里看哪里”的能动性。在 RLBench 上达到了 91.8% 的 SOTA 成功率；在 COLOSSEUM 鲁棒性测试中以 65.9% 领跑。 ...

TLDR OpenVLA 模型通过视觉表示对齐（Visual Representation Alignment）方法解决了机器人微调过程中因表示崩溃（Representation Collapse）导致的视觉常识丢失与泛化性下降问题。引入轻量级对齐机制，强制 VLA 的中间层特征与冻结的视觉教师模型（Vision Teacher）保持一致，锚定通用视觉语义。在 Simpler 分布外（OOD）基准测试上，比标准 SFT 成功率提升了高达 10% 的相对增益。 ...

TLDR EmbodiedMAE 通过在增强的 DROID-3D 数据集上进行多模态掩码自编码预训练（RGB+Depth+PC），解决了机器人操作中 3D 空间感知缺失和领域鸿沟的问题。提出了首个原生支持 3D 多模态、可扩展（Scalable）且专为具身智能设计的视觉基础模型（VFM）。在 70 个仿真任务和 20 个真实世界任务中持续超越 DINOv2、SPA 等 SOTA 模型；尤其是 Large-scale RGBD 模型性能甚至超过了 Giant-scale 仅 RGB 模型。 ...

TLDR Evo-0 模型通过引入一个隐式几何特征融合模块 (VGGT)，解决了现有 VLA 模型因 2D 预训练导致的 3D 空间感知缺失问题。设计了一个“即插即用”的几何感知支路，利用视觉几何基础模型（VGFM）提供深度感知，而无需依赖物理深度传感器。在 RLBench 模拟器中比基准模型 $\pi_0$ 成功率提升 15%；在现实世界任务中平均成功率提升 28.88%，且在干扰环境下表现出极强的鲁棒性。 ...

0. TLDR 这一篇是专门针对 VLA 的Action Tokenization 的工作，核心是网络输出action token形式的优化，可以用于优化PI0加速训练。与pi0（diffusion VLA）不同的是，这里是自回归（AR）的VLA，这类工作先前还有RT-1,RT-2,OpenVLA。论文提出了 FAST，一种基于离散余弦变换 (DCT) 和字节对编码 (BPE) 的动作分词方案，通过将动作信号从时域转为频域并压缩，解决了高频机器人数据在自回归训练中因信息冗余导致的“训练崩坏”问题。在训练速度上比基于扩散模型的 $\pi_{0}$ 快 5 倍，且在复杂的“叠衣服”等灵巧任务上表现持平，并实现了首个在 DROID 数据集上的零样本泛化策略。在 VLA 研究中，动作的表征质量与模型架构同等重要；频域分析为处理高频时序信号提供了一个极其简单且高效的新视角。 ...

TLDR 论文主要针对VLA任务中对LLM的微调策略进行研究，作者以OpenVLA为基础模型，探索并对比了几种设计方式（其中原版的OpenVLA为 autoregressive + discrete + next-token prediction）： ...

TLDR GLaD 框架通过将 VGGT 的 3D 几何特征蒸馏至 LLM 最终隐藏状态，解决了 VLA 模型缺乏空间推理和易受视觉扰动影响的问题。提出了后期隐藏状态对齐（Late-stage Hidden State Alignment），将几何先验深度耦合进多模态决策过程，而非仅仅作为视觉输入。在 LIBERO 达到 94.1% 成功率（SOTA），在 LIBERO-PRO 物体扰动测试中比基线 UniVLA 提升了 19%~60%。 ...