Pluto's blog

TLDR

一句话总结：DreamZero 通过将视频生成与动作预测耦合为联合流匹配 (Joint Flow Matching) 任务，并引入 Flash 模式（非对称去噪），解决了 VLA 模型在多样化数据下泛化差、推理慢的问题。

核心创新点：提出了 WAM (世界动作模型) 范式，通过“脑补”视觉未来（Visual Future）来引导动作生成，并利用 DreamZero-Flash 实现单步动作推理。

关键成绩：在 AgiBot G1 机器人上实现 62.2% 的任务进度（比最强 VLA 基线高 2 倍以上），在 GB200 上达到 7Hz 闭环控制。

Metadata

发表时间：2026 年初

核心模型：DreamZero / DreamZero-Flash

研究机构：NVIDIA

关键词：World-Action Model (WAM), Flow Matching, Diffusion Transformer (DiT), Embodied AI

Code & Weight：https://dreamzero0.github.io/

骨干网络：Wan2.1-I2V-14B-480P

Problem Definition

研究问题

传统的 VLA (Vision-Language-Action) 模型本质上是行为克隆（BC），它们只学习 $State \to Action$ 的直接映射。当面对高度多样化、非重复的现实数据时，这类模型因为缺乏对物理世界演化规律的理解，极易过拟合且泛化能力低下。

形式化定义

输入：语言指令 $c$ + 当前观测 $o_t$ + 历史上下文 $C$。

输出：预测的视觉未来片段 $o_{t:t+H}$ + 对应的动作轨迹 $a_{t:t+H}$。

价值与意义

将机器人从“死记硬背动作”提升到“理解物理逻辑”的高度，实现了在未见任务、未见环境下的零样本（Zero-shot）泛化。

Challenges

核心挑战

数据异质性：现实世界数据不连续、不重复，传统 BC 难以处理。

推理延迟：视频扩散模型通常需要几十次去噪，无法满足 5Hz 以上的机器人闭环控制需求。

本文针对性解决的挑战

重点攻克了**“如何从多样化视频数据中提取控制知识”**。作者认为，预测“世界如何改变”比单纯预测“手如何动”更容易从大规模数据中受益

Angle & Motivation

切入角度

利用 Flow Matching (流匹配) 的线性路径特性替代传统扩散模型，并采用自回归（AR）架构保持物理时钟的一致性

Methodology

实现细节

分块自回归 (Chunk-wise AR)：将长轨迹切分为 1.6 秒的块，每块包含视频和动作，利用 KV-cache 维持长时程记忆。

DreamZero-Flash：核心黑科技。在训练时通过 Beta(7, 1) 分布 强迫模型在视频极度模糊的情况下预测精准动作，从而在推理时实现“1步动作去噪”。

闭环校准：推理时每一帧都强行注入真实的物理观测（GT）来更新 KV-cache，物理性地掐断了“幻觉累积”。

性能提升本质：“视觉引导动作”。动作分支不再独立思考，而是去拟合视频生成的物理演化。视频生成模型强大的时空先验被转化成了机器人的“常识”。

Experiments

实验设置与指标

Benchmark：AgiBot G1 (双臂移动) 和 Franka (DROID 数据集)。

对比实验

对比了 GR00T N1.6 和 $\pi_{0.5}$。DreamZero 在未见任务（如：解鞋带、握手）上的表现远超基线，证明了其不是在背答案，而是在做规划

消融实验

多样性 vs 重复性：多样性数据让泛化能力提升了 50% 以上。

模型规模：14B 明显优于 5B，且 WAM 的 Scaling Law 比传统 VLA 更陡峭（动作质量随规模提升更直接）

Summary & Evaluation

总体评价

这是一篇里程碑式的论文，标志着具身智能从“动作模型”向“世界动作模型”的范式转移。其工程实现（如异步执行、NVFP4 量化）与算法创新结合得极其紧密。

值得 Follow 的点

Implicit IDM 的表征学习：如何利用不带标签的人类视频来提升机器人性能。

非对称去噪采样：这种“牺牲视频质量、保住动作精度”的策略非常适合实时系统。

局限性与机会

高精度缺失：亚厘米级的任务（如插钥匙）表现一般，这为你研究**“多尺度表征”**留下了坑。

系统 2 规划：目前还是短程（6秒）记忆，缺乏长程因果推理，你可以尝试将你的表征研究与长文本 LLM 结合。

TLDR#

Metadata#

Problem Definition#

研究问题#

形式化定义#

价值与意义#

Challenges#

核心挑战#

本文针对性解决的挑战#

Angle & Motivation#

切入角度#

Methodology#

实现细节#

Experiments#

实验设置与指标#

对比实验#

消融实验#

Summary & Evaluation#

总体评价#

值得 Follow 的点#

局限性与机会#