TLDR
一句话总结:DreamZero 通过将视频生成与动作预测耦合为联合流匹配 (Joint Flow Matching) 任务,并引入 Flash 模式(非对称去噪),解决了 VLA 模型在多样化数据下泛化差、推理慢的问题。
核心创新点:提出了 WAM (世界动作模型) 范式,通过“脑补”视觉未来(Visual Future)来引导动作生成,并利用 DreamZero-Flash 实现单步动作推理。
关键成绩:在 AgiBot G1 机器人上实现 62.2% 的任务进度(比最强 VLA 基线高 2 倍以上),在 GB200 上达到 7Hz 闭环控制。
Metadata
发表时间:2026 年初
核心模型:DreamZero / DreamZero-Flash
研究机构:NVIDIA
关键词:World-Action Model (WAM), Flow Matching, Diffusion Transformer (DiT), Embodied AI
Code & Weight:https://dreamzero0.github.io/
骨干网络:Wan2.1-I2V-14B-480P
Problem Definition
研究问题
传统的 VLA (Vision-Language-Action) 模型本质上是行为克隆(BC),它们只学习 $State \to Action$ 的直接映射。当面对高度多样化、非重复的现实数据时,这类模型因为缺乏对物理世界演化规律的理解,极易过拟合且泛化能力低下。
形式化定义
输入:语言指令 $c$ + 当前观测 $o_t$ + 历史上下文 $C$。
输出:预测的视觉未来片段 $o_{t:t+H}$ + 对应的动作轨迹 $a_{t:t+H}$。
价值与意义
将机器人从“死记硬背动作”提升到“理解物理逻辑”的高度,实现了在未见任务、未见环境下的零样本(Zero-shot)泛化。
Challenges
核心挑战
数据异质性:现实世界数据不连续、不重复,传统 BC 难以处理。
推理延迟:视频扩散模型通常需要几十次去噪,无法满足 5Hz 以上的机器人闭环控制需求。
本文针对性解决的挑战
重点攻克了**“如何从多样化视频数据中提取控制知识”**。作者认为,预测“世界如何改变”比单纯预测“手如何动”更容易从大规模数据中受益
Angle & Motivation
切入角度
利用 Flow Matching (流匹配) 的线性路径特性替代传统扩散模型,并采用自回归(AR)架构保持物理时钟的一致性
Methodology
实现细节
分块自回归 (Chunk-wise AR):将长轨迹切分为 1.6 秒的块,每块包含视频和动作,利用 KV-cache 维持长时程记忆。
DreamZero-Flash:核心黑科技。在训练时通过 Beta(7, 1) 分布 强迫模型在视频极度模糊的情况下预测精准动作,从而在推理时实现“1步动作去噪”。
闭环校准:推理时每一帧都强行注入真实的物理观测(GT)来更新 KV-cache,物理性地掐断了“幻觉累积”。
性能提升本质:“视觉引导动作”。动作分支不再独立思考,而是去拟合视频生成的物理演化。视频生成模型强大的时空先验被转化成了机器人的“常识”。
Experiments
实验设置与指标
Benchmark:AgiBot G1 (双臂移动) 和 Franka (DROID 数据集)。
对比实验
对比了 GR00T N1.6 和 $\pi_{0.5}$。DreamZero 在未见任务(如:解鞋带、握手)上的表现远超基线,证明了其不是在背答案,而是在做规划
消融实验
多样性 vs 重复性:多样性数据让泛化能力提升了 50% 以上。
模型规模:14B 明显优于 5B,且 WAM 的 Scaling Law 比传统 VLA 更陡峭(动作质量随规模提升更直接)
Summary & Evaluation
总体评价
这是一篇里程碑式的论文,标志着具身智能从“动作模型”向“世界动作模型”的范式转移。其工程实现(如异步执行、NVFP4 量化)与算法创新结合得极其紧密。
值得 Follow 的点
Implicit IDM 的表征学习:如何利用不带标签的人类视频来提升机器人性能。
非对称去噪采样:这种“牺牲视频质量、保住动作精度”的策略非常适合实时系统。
局限性与机会
高精度缺失:亚厘米级的任务(如插钥匙)表现一般,这为你研究**“多尺度表征”**留下了坑。
系统 2 规划:目前还是短程(6秒)记忆,缺乏长程因果推理,你可以尝试将你的表征研究与长文本 LLM 结合。