https://news.cafa.edu.cn/MobileNews/independenWeixinContent?contentId=225334751

abstract

多模态大型语言模型 (MLLM) 在各种 2D 视觉和语言任务中表现出令人难以置信的能力。我们将 MLLM 的感知能力扩展到对 3 维空间中的图像进行基础和推理。为此,我们首先通过将多个现有的 2D 和 3D 识别数据集结合在一个共同的任务公式下(即多轮问答),开发了一个称为 LV3D 的 2D 和 3D 大规模预训练数据集。接下来,我们引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 上对其进行预训练。我们表明,纯数据缩放可以实现强大的 3D 感知能力,而无需 3D 特定的架构设计或训练目标。Cube-LLM 表现出与 LLM 类似的有趣特性:(1) Cube-LLM 可以应用思路链提示来从 2D 上下文信息中提高 3D 理解。 (2) Cube-LLM 可以遵循复杂多样的指令,并适应多种输入和输出格式。 (3) Cube-LLM 可以以视觉方式提示,例如来自专家的 2D 框或一组候选 3D 框。 我们在户外基准测试上的实验表明,Cube-LLM 在 Talk2Car 数据集上对 3D 基础推理的 APBEV 得分显著高于现有基线 21.3 分,在 DriveLM 数据集上对驾驶场景的复杂推理的 APBEV 得分显著高于现有基线 17.7 分。 Cube-LLM 在一般 MLLM 基准测试(例如 refCOCO 的 2D 基础推理,平均得分为 (87.0))以及视觉问答基准(例如 VQAv2、GQA、SQA、POPE 等复杂推理)中也表现出了竞争力。 我们的项目可在 https://janghyuncho.github.io/Cube-LLM 上找到。

introduction

互联网规模的视觉数据带来了多模态大型语言模型 (MLLM) 的出现。丰富多样的视觉监督将预先训练的大型语言模型与数十亿个参数对齐到视觉模态。最好的 MLLM 可以比任何专门设计的架构和算法更好地识别、理解和推理图像和视频 [1,52]。数十年的计算机视觉数据集——图像分类、字幕、对象检测、基础、文档解析、光学字符识别 (OCR)——通过联合训练作为下一个标记预测任务为强大的 MLLM 提供动力。引入在二维空间(图像坐标)中“基础”的能力将低级感知与关于视觉输入的高级推理联系起来,就像人类的认知一样。然而,一个关键的区别是我们在三维空间(视图坐标)中感知世界。这种三维基础使我们能够更接近现实世界地感知和推理视觉输入,这是目前的 MLLM 状态尚未探索的。

在这项工作中,我们的目标是开发一个框架来训练能够在二维和三维空间中进行推理的 MLLM。我们证明,纯数据扩展可以实现我们的目标,而无需任何特定的 3D 架构设计或训练目标。相反,我们专注于仔细的数据管理来解决一个问题:哪些任务会导致二维到三维的泛化?为此,我们引入了一个用于二维和三维的大规模语言图像预训练数据集,称为 LV3D。我们首先结合室内和室外的多样化二维和三维视觉数据集,并标准化标签以遵循数据集之间的一致格式。我们将视觉数据集与 MLLM 训练的指令跟踪数据混合在一起,作为一系列问答对(§ 3.1)。接下来,我们通过将视觉标签分解为更简单的任务(例如,3D 框 → 2D 点、深度、大小、方向)来增强我们的混合数据集。这训练我们的模型以适应多种输入和输出格式,并连接底层的 2D 和 3D 结构(§ 3.2)。最重要的是,我们混合了一系列关于一个对象的 QA 对,以进行“逐步”推理,从较容易(例如 2D 框)到较难(例如 3D 框)的任务。由于 MLLM 的自回归性质(§ 3.3),这直接引发了 2D 到 3D 的泛化。最后,我们在 LV3D 上训练 MLLM 作为单个“下一个标记预测”任务,称为 Cube-LLM(§ 3.4)。

Cube-LLM 表现出许多有趣的特性。首先,Cube-LLM 可以通过提示自己的 2D 预测来自我提高其 3D 推理性能。这种视觉思维链推理类似于 LLM 的众所周知的行为 [59]。其次,Cube-LLM 可以适应多种输入和输出格式和问题,这遵循了 LLM 的指令跟随能力 [58]。最后,Cube-LLM 可以通过任何专业模型提示任何附加模态(例如,LiDAR),只需将其预测添加到问题中即可。Cube-LLM 在 2D 和 3D 数据缩放方面表现出显着的改进,适用于室内和室外场景接地以及驾驶场景中的 QA 等复杂推理任务。

我们在各种室内和室外数据集以及标准 MLLM 基准上评估了我们的模型在 3D 接地和 3D 复杂推理任务中的表现,并展示了非驾驶场景中 3D 接地的定性结果(图 2)。对于 Talk2Car 数据集 [18] 上的 3D 接地,Cube-LLM 在鸟瞰图 (BEV) AP(71.4 vs 50.1)中超过基线 21.3,在 3D AP(64.1 vs 45.4)中超过基线 18.7。此外,我们的训练框架提高了 Cube-LLM 在 DriveLM [48] 数据集上的性能,几乎使 3D 接地的 BEV AP(66.0 vs 33.2)的性能从基线提高了一倍。我们还在驾驶场景的复杂推理基准 (DriveLM) 上测试了 Cube-LLM,与 DriveLM 基线 [48] 相比,总分提高了 17.7 分 (50.1 vs 32.4)。此外,我们表明 Cube-LLM 在 2D 指称表达理解方面表现最佳,在 refCOCO/+/g 上的平均得分为 87.0。最后,我们表明 Cube-LLM 在包括 VQAv2、GQA 等在内的各种 MLLM 基准测试中保持了有竞争力的性能,证实了我们的 3D 推理能力是一种扩展,而不是一种权衡。

与之前的研究相比,Cube-LLM 可以直接在 3D 空间中推理复杂的 AV 感知场景,并且可以以端到端的方式进行训练

3 Unified Language-Image Pretraining for 2D and 3D

我们的目标是扩展视觉语言模型在三维空间中的推理能力。我们提出了一个统一的训练框架,用于从二维和三维感知数据以及标准图像文本对中学习。在本节中,我们首先讨论数据标准化以大规模训练视觉语言模型(第 3.1 节)、任务扩展以理解通用 I/O 格式的感知信息(第 3.2 节)、用于 3D 基础和问答任务的视觉思路链推理(第 3.3 节),最后,我们介绍了 Cube-LLM,这是我们基于 LLaVA-1.5 [34] 构建的统一训练框架的最终模型(第 3.4 节)。

3.1 Data-scaling for Image-based 3D Reasoning

我们的目标是从所有可用数据源中训练单个 2D + 3D MLLM。为了将许多不同的 2D 和 3D 基础任务标准化为一个,我们对数据进行了标准化,将所有任务表述为下一个标记预测,并将 3D 推理格式化为多轮对话。

施工中