TLDR Hi Robot 模型通过分层视觉-语言-行动(Hierarchical VLA)架构和合成交互数据生成方法,解决了机器人难以理解开放式指令及实时处理环境反馈的问题。借鉴“系统 1/系统 2”理论,构建了一个高层推理 VLM(生成子指令)与底层执行 VLA(生成动作)的分层控制架构,并通过 VLM 自动回推标注生成大规模合成交互数据集。在平均表现上,Hi Robot 的指令准确率(IA)比 GPT-4o 高出 40% 以上,且在任务进度(TP)上显著优于扁平化(Flat)策略模型。该论文为 VLA 模型研究 提供了将互联网规模的推理能力与物理执行解耦的范式参考,尤其是其自动化合成标注的思路对解决机器人数据稀缺问题极具启发。 ...
Posts
TLDR 省流版。。。 一句话总结:用最精炼的话描述论文,模型 X 通过方法 Y 解决了问题 Z。 核心创新点:一句话简单概括论文创新点。 关键成绩:在 xxx 数据集上比 xxx 成功率提升了 xxx。 研究映射:这篇论文对我的xxx项目提供了 xxx 灵感/代码/参考。 Metadata 发表期刊/会议: 论文作者: 研究机构: 论文链接: 关键词: Code & Dataset & Weight: BibTeX: Problem Definition 研究问题 这篇论文究竟想要解决什么具体问题? ...
TLDR InternVLA-M1 认为机器人要先学会在图像里空间定位,才能在物理世界执行动作。它通过 300 万条空间数据的训练,让大模型拥有了几何直觉。InternVLA-M1 采用空间引导的双系统框架,通过将任务解耦为“具身无关的空间定位”预训练与“空间引导的动作”后训练,解决了通用机器人策略在复杂环境下泛化性差的问题。提出了空间引导训练范式(Spatially Guided Training),利用大规模 Web 数据构建空间先验,并通过梯度衰减机制平衡感知与动作的学习。在 SimplerEnv Google Robot 上成功率提升 14.6%,在 WidowX 上提升 17%,在现实世界未见过物体任务中实现 +20.6% 的飞跃。 ...
TLDR 本文提出了一种**知识绝缘(Knowledge Insulation)的 VLA 训练方案。其核心是通过在训练时引入离散动作预测作为辅助任务来学习表征,同时使用停止梯度(Stop-gradient)**技术防止随机初始化的连续动作专家(Action Expert)破坏预训练 VLM 的语义知识。该方法实现了训练快、推理快且泛化性能更强的 VLA 模型。 ...
TLDR https://blog.csdn.net/v_JULY_v/article/details/149352338 大规模 VLA 算得太慢(延迟高),机器人要么停顿等结果,要么换块执行时由于动作不连贯而“抽搐”。这篇论文提出了一种异步新方法,让机器人一边做动作一边丝滑地构思下一步。RTC (Real-Time Chunking) 算法通过将异步动作块生成转化为推理端图像修复 (Inpainting) 问题,解决了大规模 VLA 模型在机器人控制中的高延迟与动作不连贯问题。将异步动作衔接建模为带引导的去噪过程,并引入软掩码 (Soft Masking) 机制来兼顾动作连贯性与环境反应速度。在 6 项极具挑战的双臂协作任务中,执行速度比同步推理提升了 20%,且在注入 >300ms 的极端延迟下仍能保持极高的任务成功率。 ...
TLDR ReconVLA 通过引入基于 Diffusion Transformer 的局部注视区域(Gaze Region)重建任务,解决了传统 VLA 模型视觉注意力分散的问题,实现了机器人从“看个大概”到“精准注视”的跨越。在 CALVIN “堆叠方块”(最具挑战性的微操任务)上成功率提升了 20.2%;在未见物体的现实泛化实验中,成功率远超现在的SOTA。 ...
TLDR 省流版。。。 一句话总结:用最精炼的话描述论文,模型 X 通过方法 Y 解决了问题 Z。 核心创新点:一句话简单概括论文创新点。 关键成绩:在 xxx 数据集上比 xxx 成功率提升了 xxx。 研究映射:这篇论文对我的xxx项目提供了 xxx 灵感/代码/参考。 Metadata 发表期刊/会议: 论文作者: 研究机构: 论文链接: 关键词: Code & Dataset & Weight: BibTeX: Problem Definition 研究问题 这篇论文究竟想要解决什么具体问题? ...