TLDR ActiveVLA 通过 Coarse-to-fine(由粗到精) 的主动感知框架,解决了现有 VLA 模型因静态视角导致的遮挡与分辨率不足问题。引入了基于 3D 点云的**主动视角选择(Active View Selection)与虚拟 3D 缩放(Active 3D Zoom-in)**机制,使机器人具备了“想看哪里看哪里”的能动性。在 RLBench 上达到了 91.8% 的 SOTA 成功率;在 COLOSSEUM 鲁棒性测试中以 65.9% 领跑。 ...

3 分钟 · 1025 字 · ZhaoYang

TLDR OpenVLA 模型通过 视觉表示对齐(Visual Representation Alignment) 方法解决了机器人微调过程中因 表示崩溃(Representation Collapse) 导致的视觉常识丢失与泛化性下降问题 。引入轻量级对齐机制,强制 VLA 的中间层特征与冻结的视觉教师模型(Vision Teacher)保持一致,锚定通用视觉语义。在 Simpler 分布外(OOD)基准测试上,比标准 SFT 成功率提升了高达 10% 的相对增益 。 ...

4 分钟 · 1631 字 · ZhaoYang

TLDR EmbodiedMAE 通过在增强的 DROID-3D 数据集上进行多模态掩码自编码预训练(RGB+Depth+PC),解决了机器人操作中 3D 空间感知缺失和领域鸿沟的问题。提出了首个原生支持 3D 多模态、可扩展(Scalable)且专为具身智能设计的视觉基础模型(VFM)。在 70 个仿真任务和 20 个真实世界任务中持续超越 DINOv2、SPA 等 SOTA 模型;尤其是 Large-scale RGBD 模型性能甚至超过了 Giant-scale 仅 RGB 模型。 ...

3 分钟 · 1189 字 · ZhaoYang

TLDR Evo-0 模型通过引入一个隐式几何特征融合模块 (VGGT),解决了现有 VLA 模型因 2D 预训练导致的 3D 空间感知缺失问题。设计了一个“即插即用”的几何感知支路,利用视觉几何基础模型(VGFM)提供深度感知,而无需依赖物理深度传感器。在 RLBench 模拟器中比基准模型 $\pi_0$ 成功率提升 15%;在现实世界任务中平均成功率提升 28.88%,且在干扰环境下表现出极强的鲁棒性。 ...

3 分钟 · 1176 字 · ZhaoYang

0. TLDR 这一篇是专门针对 VLA 的Action Tokenization 的工作,核心是网络输出action token形式的优化,可以用于优化PI0加速训练。与pi0(diffusion VLA)不同的是,这里是自回归(AR)的VLA,这类工作先前还有RT-1,RT-2,OpenVLA。论文提出了 FAST,一种基于离散余弦变换 (DCT) 和 字节对编码 (BPE) 的动作分词方案,通过将动作信号从时域转为频域并压缩,解决了高频机器人数据在自回归训练中因信息冗余导致的“训练崩坏”问题。在训练速度上比基于扩散模型的 $\pi_{0}$ 快 5 倍,且在复杂的“叠衣服”等灵巧任务上表现持平,并实现了首个在 DROID 数据集上的零样本 泛化策略。在 VLA 研究中,动作的表征质量与模型架构同等重要;频域分析为处理高频时序信号提供了一个极其简单且高效的新视角。 ...

4 分钟 · 1703 字 · ZhaoYang

TLDR 论文主要针对VLA任务中对LLM的微调策略进行研究,作者以OpenVLA为基础模型,探索并对比了几种设计方式(其中原版的OpenVLA为 autoregressive + discrete + next-token prediction): ...

7 分钟 · 3127 字 · ZhaoYang

TLDR GLaD 框架通过将 VGGT 的 3D 几何特征蒸馏至 LLM 最终隐藏状态,解决了 VLA 模型缺乏空间推理和易受视觉扰动影响的问题。提出了后期隐藏状态对齐(Late-stage Hidden State Alignment),将几何先验深度耦合进多模态决策过程,而非仅仅作为视觉输入。在 LIBERO 达到 94.1% 成功率(SOTA),在 LIBERO-PRO 物体扰动测试中比基线 UniVLA 提升了 19%~60%。 ...

3 分钟 · 1133 字 · ZhaoYang