Pluto's blog

TLDR

FVP 模型通过下一帧点云预测（Next-Point-Cloud-Prediction）作为自监督目标，利用条件扩散模型解决了 3D 机器人学习中时空特征对齐难和动态常识缺失的问题。

将视觉预训练从 3D 静态重建升维到 4D（3D+Time）动态预测，强制编码器理解动作带来的物理反馈。在 12 个真实世界任务中将 DP3 的平均成功率提升了 28%；在 RDT-1B (VLA) 上实现了显著的长程任务与空间感知提升。

Metadata

发表期刊/会议：ICCV 2025
论文作者：Chengkai Hou1, Yanjie Ze3, Yankai Fu1, Zeyu Gao4, Songbo Hu2, Yue Yu2 Shanghang Zhang1, Huazhe Xu
研究机构：1Peking University 2Tsinghua University 3Shanghai Qizhi Institute 4 CASIA 5 Shanghai AI Lab
论文链接：https://arxiv.org/abs/2508.17230
关键词： Vision-Language-Action (VLA), 3D Point Cloud, Diffusion Models, 4D Pre-training, World Models.
Code & Dataset & Weight： https://4d-visual-pretraining.github.io/
BibTeX：

@article{cheng2025fvp,
    author    = {Chengkai Hou and Yanjie Ze and Yankai Fu and Zeyu Gao and Yue Yu and Songbo Hu and Shanghang Zhang and Huazhe Xu},
    title     = {FVP: 4D Visual Pre-training for Robot Learning},
    journal   = {ICCV},
    year      = {2025},
  }

Problem Definition

研究问题

目前的机器人视觉表示大多依赖 2D Web 数据（如 CLIP），丢失了 3D 空间感；而现有的 3D 预训练（如 PointMAE）又是静态的，无法让机器人理解动作（Action）与环境变化（Dynamics）之间的因果关系

形式化定义

输入：历史观测点云序列 $o_{1:t-1}$，当前/历史动作 $a_{1:t-1}$。

输出：预测下一帧点云 $o_t$。

Challenges

核心挑战

互联网缺乏大规模、高质量的带有动作标注的 3D 点云数据（不像 2D 图片那样随处可见）。

本文针对性解决的挑战

利用自监督学习突破数据瓶颈。作者认为不需要无穷无尽的标注，只需通过“预测未来”就能倒逼模型学到最核心的物理表征。这种选择非常合理，因为它符合 JEPA（联合嵌入预测架构） 的前沿趋势。

Angle & Motivation

切入角度

4D 时空预测。作者不再满足于让模型知道“杯子在哪里”，而是要模型知道“我推一下，杯子会到哪里”。

Methodology

实现细节

可视化下一帧点云预测的任务

流程图

特征提取：利用 3D Encoder（如 PointNet++）将历史帧编码为潜在表示 $z$。

生成式预测：采用 Point-Voxel Diffusion 结构。将 $z$ 作为 Condition，配合高斯噪声，通过去噪过程恢复出下一帧点云。

公式核心：

$$\mathcal{L} = \mathbb{E}{\epsilon \sim \mathcal{N}(0,I)} \left| \epsilon - \epsilon\theta(o_{t,T,+}, T) \right|^2_2$$

其中 $o_{t,T,+}$ 融合了噪声点云与历史特征 $z$。

性能提升的本质

特征的动力学对齐。由于模型在预训练时被迫理解了物理演化，其提取的 $z$ 向量天然携带了空间距离、物体惯性和运动趋势等关键信息，极大减轻了下游策略模型的负担。

Experiments

实验设置与指标

Benchmark：仿真（Adroit, MetaWorld）、真实世界（12个任务，含单臂、双臂、人形机器人）。

指标：Success Rate（成功率）。

对比实验

对比2D数据上训练的模型：

![image-20260125234619098](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125234619098.png)

对比了 RDT-1B 在五种真实世界任务（PickSquare, PlaceBottle, PutBox, StackBowl, WipePlate）中的表现。

对比的四种配置（模型变体）：

2D Image Input：原生的 RDT-1B，只吃 2D 图像特征。这是 VLA 的基准线。
2D Image Input by R3M：在原生 2D 输入的基础上，把 Encoder 换成经过 R3M（2D 自监督预训练）强化过的。
3D point cloud Input：给 RDT-1B 额外增加点云输入，但 Encoder 是随机初始化或常规训练的（没有经过 FVP 预训练）。
3D encoder pretrained by FVP：本文的最终形态——RDT-1B + 点云输入 + FVP 预训练过的 3D Encoder。

![image-20260125234629450](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125234629450.png)

Table 3 是对 VLA 模型核心能力的“压力测试”，评估了四个维度：空间理解、知识迁移、语言理解和长程任务。

实验设置：

数据集：这里的 FVP 是在 Robomind（域外机器人数据集） 上进行的预训练。
对比项：2D 图像基准 vs. 3D 点云输入 vs. FVP 增强版。

![image-20260125234638162](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125234638162.png)

DP3 + FVP / RISE + FVP：分别在两个最强的 3D 模仿学习骨干（Backbone）上应用了 FVP。
DP3 (Baseline)：视觉部分没有经过任何预训练。
DP3 + PointMAE / STRL / C2P：用了其他主流的 3D 预训练方法。

**2D 预训练：如 MVP、R3M（也就是 Table 1 里那些巨头）。

结构改进：如 EquiBot（等变性机器人）和 EquiDiff。这些模型试图通过改变神经网络的对称性来提升性能。

消融实验

DP3 + FVP (Full Model)：完整体，表现最好，几乎全满分。

Current Frame Input (无历史帧)：

变化：在预训练和推理时只给当前这一帧点云，不给过去的信息。
结果：成功率大幅下降（平均下降了 25%-35%）。
深度解读：这证明了 “4D”（时间维度）是 FVP 的灵魂。没有历史帧，模型就无法理解物体的运动趋势（Velocity/Dynamics），只能算是一个 3D 版本的静态感知模型。

Freeze Visual Encoder (冻结编码器)：

变化：预训练完后，在下游任务微调时，不准修改 Encoder 的参数。
结果：表现最差（跌到了 50% 左右）。
深度解读：这反映了目前机器人学的一个硬伤——域差异（Domain Gap）。即便 FVP 在 Robomind 上学到了物理常识，但由于预训练数据集和真实实验场景的传感器噪声、背景光照不同，如果不微调，特征就无法精准匹配新环境。

![image-20260125234708425](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125234708425.png)

预训练时，给模型看多长的历史（1 帧到 4 帧）最合适？

![image-20260125234718992](/Users/yangchao/Library/Application Support/typora-user-images/image-20260125234718992.png)

Summary & Evaluation

值得 Follow 的点

特征融合方式：如何将 3D 点云特征作为 RDT 等 VLA 模型的额外 Token 注入。

自监督目标：利用预测下一帧作为通用的预训练任务。

TLDR#

Metadata#

Problem Definition#

研究问题#

形式化定义#

Challenges#

核心挑战#

本文针对性解决的挑战#

Angle & Motivation#

切入角度#

Methodology#

实现细节#

性能提升的本质#

Experiments#

实验设置与指标#

对比实验#

消融实验#

Summary & Evaluation#

值得 Follow 的点#