Posts

TLDR 省流版。。。一句话总结：用最精炼的话描述论文，模型 X 通过方法 Y 解决了问题 Z。核心创新点：一句话简单概括论文创新点。关键成绩：在 xxx 数据集上比 xxx 成功率提升了 xxx。研究映射：这篇论文对我的xxx项目提供了 xxx 灵感/代码/参考。 Metadata 发表期刊/会议：论文作者：研究机构：论文链接：关键词： Code & Dataset & Weight： BibTeX： Problem Definition 研究问题这篇论文究竟想要解决什么具体问题？ ...

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model 3DS-VLA: A 3D Spatial-Aware Vision Language Action Model for Robust Multi-Task Manipulation Evo-0：Vision-Language-Action Model with Implicit Spatial Understanding GeoVLA: Empowering 3D Representations in Vision-Language-Action Models EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation SPATIAL FORCING: IMPLICIT SPATIAL REPRESENTATION ALIGNMENT FOR VISION-LANGUAGE-ACTION MODEL ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation GLaD: Geometric Latent Distillation for Vision-Language-Action Models From Spatial to Actions: Grounding VLA in Spatial Foundation Priors ...

TLDR VLA-4D 模型通过在视觉感知端引入 4D 时空嵌入并在动作输出端引入显式时间变量 $\Delta t$，解决了 VLA 模型在复杂操控任务中动作不连贯、停顿抖动的问题。首次实现了感知与动作的全链路 4D 对齐，不仅让模型“看懂”时空，更让模型具备了控制“动作节奏”的能力。在 LIBERO 标杆数据集上不仅成功率（SR）达到 SOTA，且任务完成时间（CT）显著缩短（平均缩短约 18%），生成的动作轨迹在全局和局部均表现出极高的平滑性。 ...

TLDR 本文证明了 VLM 的通用评测分数与其在机器人控制任务中的表现并不正相关。视觉编码器是 VLA 性能的核心瓶颈，且现有的“具身 VQA”微调对实际动作控制提升微乎其微。 ...

TLDR X-Distill 框架通过在通用数据集上将大型 DINOv2 (ViT) 的特征蒸馏至紧凑的 ResNet-18 (CNN)，成功解决了视觉运动策略在小样本数据下的优化难题与泛化瓶颈。论文提出了跨架构知识蒸馏方案，将 ViT 的全局语义先验与 CNN 固有的强归纳偏置（局部性、平移等变性）完美结合。在 34 个仿真任务中仅凭 10 个演示样本即达到 SOTA，在写字等高精度任务中成功率远超 $\pi_0$ (VLA) 和 3D 策略。 ...