TLDR 省流版。。。 一句话总结:用最精炼的话描述论文,模型 X 通过方法 Y 解决了问题 Z。 核心创新点:一句话简单概括论文创新点。 关键成绩:在 xxx 数据集上比 xxx 成功率提升了 xxx。 研究映射:这篇论文对我的xxx项目提供了 xxx 灵感/代码/参考。 Metadata 发表期刊/会议: 论文作者: 研究机构: 论文链接: 关键词: Code & Dataset & Weight: BibTeX: Problem Definition 研究问题 这篇论文究竟想要解决什么具体问题? ...
Posts
SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model 3DS-VLA: A 3D Spatial-Aware Vision Language Action Model for Robust Multi-Task Manipulation Evo-0:Vision-Language-Action Model with Implicit Spatial Understanding GeoVLA: Empowering 3D Representations in Vision-Language-Action Models EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation SPATIAL FORCING: IMPLICIT SPATIAL REPRESENTATION ALIGNMENT FOR VISION-LANGUAGE-ACTION MODEL ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation GLaD: Geometric Latent Distillation for Vision-Language-Action Models From Spatial to Actions: Grounding VLA in Spatial Foundation Priors ...
TLDR VLA-4D 模型通过在视觉感知端引入 4D 时空嵌入 并在动作输出端引入 显式时间变量 $\Delta t$,解决了 VLA 模型在复杂操控任务中动作不连贯、停顿抖动的问题。首次实现了感知与动作的全链路 4D 对齐,不仅让模型“看懂”时空,更让模型具备了控制“动作节奏”的能力。在 LIBERO 标杆数据集上不仅成功率(SR)达到 SOTA,且任务完成时间(CT)显著缩短(平均缩短约 18%),生成的动作轨迹在全局和局部均表现出极高的平滑性。 ...
TLDR 本文证明了 VLM 的通用评测分数与其在机器人控制任务中的表现并不正相关。视觉编码器是 VLA 性能的核心瓶颈,且现有的“具身 VQA”微调对实际动作控制提升微乎其微。 ...
TLDR X-Distill 框架通过在通用数据集上将大型 DINOv2 (ViT) 的特征蒸馏至紧凑的 ResNet-18 (CNN),成功解决了视觉运动策略在小样本数据下的优化难题与泛化瓶颈。论文提出了跨架构知识蒸馏方案,将 ViT 的全局语义先验与 CNN 固有的强归纳偏置(局部性、平移等变性)完美结合。在 34 个仿真任务中仅凭 10 个演示样本即达到 SOTA,在写字等高精度任务中成功率远超 $\pi_0$ (VLA) 和 3D 策略。 ...