TLDR

一句话总结DreamZero 通过将视频生成与动作预测耦合为联合流匹配 (Joint Flow Matching) 任务,并引入 Flash 模式(非对称去噪),解决了 VLA 模型在多样化数据下泛化差、推理慢的问题。

核心创新点:提出了 WAM (世界动作模型) 范式,通过“脑补”视觉未来(Visual Future)来引导动作生成,并利用 DreamZero-Flash 实现单步动作推理。

关键成绩:在 AgiBot G1 机器人上实现 62.2% 的任务进度(比最强 VLA 基线高 2 倍以上),在 GB200 上达到 7Hz 闭环控制。

Metadata

发表时间:2026 年初

核心模型:DreamZero / DreamZero-Flash

研究机构:NVIDIA

关键词:World-Action Model (WAM), Flow Matching, Diffusion Transformer (DiT), Embodied AI

Code & Weight:https://dreamzero0.github.io/

骨干网络:Wan2.1-I2V-14B-480P

Problem Definition

研究问题

传统的 VLA (Vision-Language-Action) 模型本质上是行为克隆(BC),它们只学习 $State \to Action$ 的直接映射。当面对高度多样化、非重复的现实数据时,这类模型因为缺乏对物理世界演化规律的理解,极易过拟合且泛化能力低下。

形式化定义

输入:语言指令 $c$ + 当前观测 $o_t$ + 历史上下文 $C$。

输出:预测的视觉未来片段 $o_{t:t+H}$ + 对应的动作轨迹 $a_{t:t+H}$。

价值与意义

将机器人从“死记硬背动作”提升到“理解物理逻辑”的高度,实现了在未见任务、未见环境下的零样本(Zero-shot)泛化。

Challenges

核心挑战

数据异质性:现实世界数据不连续、不重复,传统 BC 难以处理。

推理延迟:视频扩散模型通常需要几十次去噪,无法满足 5Hz 以上的机器人闭环控制需求。

本文针对性解决的挑战

重点攻克了**“如何从多样化视频数据中提取控制知识”**。作者认为,预测“世界如何改变”比单纯预测“手如何动”更容易从大规模数据中受益

Angle & Motivation

切入角度

利用 Flow Matching (流匹配) 的线性路径特性替代传统扩散模型,并采用自回归(AR)架构保持物理时钟的一致性

Methodology

实现细节

分块自回归 (Chunk-wise AR):将长轨迹切分为 1.6 秒的块,每块包含视频和动作,利用 KV-cache 维持长时程记忆。

DreamZero-Flash:核心黑科技。在训练时通过 Beta(7, 1) 分布 强迫模型在视频极度模糊的情况下预测精准动作,从而在推理时实现“1步动作去噪”。

闭环校准:推理时每一帧都强行注入真实的物理观测(GT)来更新 KV-cache,物理性地掐断了“幻觉累积”。

性能提升本质“视觉引导动作”。动作分支不再独立思考,而是去拟合视频生成的物理演化。视频生成模型强大的时空先验被转化成了机器人的“常识”。

Experiments

实验设置与指标

Benchmark:AgiBot G1 (双臂移动) 和 Franka (DROID 数据集)。

对比实验

对比了 GR00T N1.6 和 $\pi_{0.5}$。DreamZero 在未见任务(如:解鞋带、握手)上的表现远超基线,证明了其不是在背答案,而是在做规划

消融实验

多样性 vs 重复性:多样性数据让泛化能力提升了 50% 以上。

模型规模:14B 明显优于 5B,且 WAM 的 Scaling Law 比传统 VLA 更陡峭(动作质量随规模提升更直接)

Summary & Evaluation

总体评价

这是一篇里程碑式的论文,标志着具身智能从“动作模型”向“世界动作模型”的范式转移。其工程实现(如异步执行、NVFP4 量化)与算法创新结合得极其紧密。

值得 Follow 的点

Implicit IDM 的表征学习:如何利用不带标签的人类视频来提升机器人性能。

非对称去噪采样:这种“牺牲视频质量、保住动作精度”的策略非常适合实时系统。

局限性与机会

高精度缺失:亚厘米级的任务(如插钥匙)表现一般,这为你研究**“多尺度表征”**留下了坑。

系统 2 规划:目前还是短程(6秒)记忆,缺乏长程因果推理,你可以尝试将你的表征研究与长文本 LLM 结合。