在本文中,如图 1 所示,我们介绍了 LiDARLLM,这是一种利用 LLM 的推理能力全面理解户外 3D 场景的新方法。LiDAR-LLM 架构包括 3D LiDAR 编码器、中间对齐变换器和 LLM,例如 LLaMA [42]。LiDARLLM 的关键见解在于通过解释性语言建模重新定义 3D 场景认知问题。然而,引入 LLM 来感知户外 3D 场景面临两个挑战:(1)与丰富的图像文本配对数据 [9, 40, 41] 相比,3D LiDAR-文本配对数据极其稀少,并且缺乏易于获取的多模态模型(例如 CLIP [39])。(2)3D LiDAR 数据包含各种对象及其之间复杂的几何关系。以户外自动驾驶为例, 其中自主车辆被各种移动和静止的物体所包围,这些物体相互遮挡和影响。
为了应对这些挑战,对于 LiDAR-LLM,我们引入了三阶段训练策略并生成相关数据集,逐步将 3D 表示转移到文本特征空间并释放 LLM 对 3D 场景的推理能力。具体来说,在第一阶段,我们使用 MLLM [28, 50] 和 GPT4 [34] 在 nuScenes 数据集 [7] 内进行多视图图像和语言之间的通信,其中每个场景都伴随着成对的 3D LiDAR 数据。通过这种方式,我们生成了一个包含 420K liDAR-文本对的数据集,并将 3D LiDAR 特征与 LLM 的词嵌入进行跨模态对齐。在第二阶段,由于感知构成了 3D 场景理解的基础,我们将 3D 边界框合并到问答文本中并生成一个 280K LiDAR 基础数据集.
这增强了 LiDAR-LLM 对物体位置和关系的敏感性。在最后阶段,我们在高级指令数据集 [15, 38] 上对我们的模型进行了有效的微调,全面扩展了其 3D 下游任务的能力。为了更有效地弥合 3D LiDAR 和文本之间的模态差距,我们设计了一个 View-Aware Transformer (VAT),将 3D LiDAR 编码器与 LLM 连接起来,将六个视图位置嵌入注入 3D 特征中。结合三阶段训练策略,VAT 增强了 LLM 对视觉特征空间方向的理解。总之,我们的贡献如下:
我们提出了 LiDAR-LLM,它以 3D LiDAR 数据和语言提示作为输入,利用 LLM 的推理能力来理解户外 3D 场景。 LiDAR-LLM 可以执行 3D 字幕、3D 基础、3D 问答等任务。 • 我们引入了一种三阶段训练策略,用于逐步将 3D 表示转移到文本特征空间,其中包括跨模态对齐、感知和高级指令。同时,我们收集了一组 LiDAR-文本配对数据集,包括 420K 3D 字幕和 280K 3D 基础数据,这些数据集即将发布。 • 我们专门设计了一个 View-Aware Transformer (VAT),将 3D LiDAR 编码器与 LLM 连接起来,缩小了 3D LiDAR 和文本之间的模态差距,并增强了 LLM 对视觉特征空间方向的理解。 • 在我们提出的 LiDAR-text 数据集中,LiDAR-LLM 表现出色,在 3D 字幕数据集上获得了 40.9 BLEU-1 分数,并在 3D 接地数据集上获得了 63.1% 的分类准确率和 14.3% 的 BEV mIoU。
广泛的语言模型,例如 LLaMA [42] 和 GPT-3 [19],利用其强大的推理和泛化能力,展示了处理各种语言任务的能力。在这些成就的基础上,引入了 2D 多模态大型语言模型 (2D MLLM) [17、28、50] 来连接 RGB 视觉图像和文本。这些模型利用大型语言模型 (LLM) [42] 的功能,并通过对 2D 输入进行调节,旨在解决 2D 下游任务,例如视觉问答 [3] 和字幕 [2]。 代表性模型 BLIP [28] 使用从大规模嘈杂图像文本对引导的数据集对多模态编码器-解码器模型混合进行预训练。它注入不同的合成字幕并删除嘈杂字幕,以实现统一的视觉语言理解和生成。同时,VisionLLM [44] 将以视觉为中心的任务与语言任务结合起来,允许通过语言指令进行灵活的定义和管理。此外,3D 多模态大型语言模型 (3D MLLM) [22、24、45、46] 的引入旨在扩大从 LLM 获得的知识、推理和对话能力的范围,以涵盖 3D 模态。例如,几个项目利用 GPT-3 [19] 或 LLaMA [42] 来提高基于语言的 3D 空间几何理解,如 PointCLIP V2 [54] 和 ViewRefer [21] 等作品所展示的那样。他们专注于具有单个对象或室内场景的 3D 点云。与这些方法相比,我们是第一个利用 LLM 的推理能力来理解户外 3D 场景并完成字幕、3D 基础和 3D 问答等任务的人。 3D LiDAR 点云数据带来的独特挑战包括缺乏 LiDAR-文本配对数据以及包含各种对象和关系,这给多模态对齐和推理带来了困难。
3D 点云和自然语言的结合具有多种应用,最近引起了越来越多的关注 [1, 10, 11, 18, 23, 26]。具体来说,需要 3D 字幕 [11, 13] 来描述 3D 场景中的特定对象。3D 视觉基础 [10, 48] 专注于生成文本表达所指对象的位置。同时,在 3D 视觉问答 [5] 的背景下,模型需要根据 3D 场景的视觉内容回答语言问题。然而,上述任务的 3D 方法旨在解决单个任务特定的挑战,而没有探索它们的共性并提供统一的解决方案。此外,这些方法是针对室内点云任务量身定制的,可能无法直接转移到室外 LiDAR,因为 LiDAR 在几何关系上更稀疏、更多样化。为了解决这一问题,我们提出了 LiDAR-LLM,一种面向 LiDAR 的方法,以统一 执行户外场景的 3D 任务。
LiDAR-LLM 的总体框架如图 2 所示。其核心概念涉及将高度稀疏和复杂的几何 LiDAR 数据转换为大型语言模型 (LLM) 可以理解的表示空间。我们提出的视图感知变换器 (VAT) 促进了这种转换,它结合了视图位置嵌入来增强 LLM 的空间方向理解。因此,它可以全面解释户外 3D 场景中的复杂细节。然而,将 LLM 集成到理解户外 3D 场景中面临两个挑战:(1) 与大量可用的图像文本配对数据不同,3D LiDAR 文本配对数据极其稀缺;(2) 3D LiDAR 数据涉及各种对象及其之间复杂的几何关系。因此,我们实施了三阶段训练策略并生成 LiDAR-文本配对训练数据,以协作地将 3D 表示与 LLM 的特征空间对齐。通过此过程,LiDAR-LLM 跨模态执行各种任务,并在场景和实例级别处理复杂的跨模态场景。它释放了 LLM 在 3D LiDAR 数据上的常识推理和定位能力。
给定一个 LiDAR 输入 L ∈ R n×3 ,其中 n 是点数,使用 VoxelNet [52] 提取其 3D 体素特征。随后,考虑到计算成本,我们沿 z 轴展平该特征以生成鸟瞰图 (BEV) 特征。同时,对于最多有 m 个字符的文本输入 T,使用 LLaMA [42] 提取文本特征。利用 BEV 特征 Fv ∈ R c×h×w 以及文本特征 Ft ∈ R m×d (其中 d 是特征的维度),我们的目标是通过我们提出的 View-Aware Transformer (VAT) 将这些 LiDAR BEV 特征投影到预先训练的 LLaMA 的词嵌入空间中。这种对齐对于进行多模态理解和在 3D 下游任务中生成准确答案至关重要。在训练过程中,我们仅对 LLaMA 和 VAT 模块中注入的适配器 [25] 进行微调,同时冻结主要参数。这旨在保留现有模块强大的特征提取和推理能力,并进一步使模型具备理解 3D LiDAR 场景的能力。
VAT 设计。在图 2 的右侧部分,VAT 的输入包括一组 K 个可学习的查询嵌入,其中 K 设置为 576,以方便投影到 LLM 的字嵌入空间中。这些查询通过交叉注意机制与 BEV 特征交互。VAT 产生一个输出,包含 K 个编码的视觉向量,每个查询嵌入一个。然后,这些向量通过多层感知器 (MLP) 进行处理,随后输入到冻结的 LLM 中。然而,户外 LiDAR 数据,例如 nuScenes [7],需要全面了解不同物体与自我汽车之间的方向关系。它包含了物体之间错综复杂的关系。因此,我们为 BEV 特征引入了视图位置嵌入,目的是提升模型学习方向和几何关系的能力。具体来说,我们首先构造具有零初始参数的视图位置嵌入 Vp ∈ R c×6。然后,我们根据六个视图拆分 BEV 特征,包括正面、右前、左前、背面、右后和左后视图。在训练期间,当处理与特定视图相关的问题时,我们将相应的位置嵌入注入到 BEV 特征和查询中。例如,在训练与左前视图相关的字幕样本时,我们仅将左前位置嵌入 Vp ∈ R c×1 注入到 BEV 特征和查询的左前视图部分。如果训练样本涉及有关整个全景场景的问题,我们在训练期间注入所有六个视图位置嵌入。
在本节中,我们将展示如何赋予 LLM 理解 3D LiDAR 数据和统一完成大量 3D 任务的能力。我们引入了一种三阶段训练策略并生成相关数据集,逐步将 3D 表示转移到文本特征空间。三个阶段包含跨模态对齐、感知和高级指令。 跨模态对齐(3D 字幕):为了有效解决丰富的 3D 下游任务,该模型需要彻底了解 LiDAR 场景。场景字幕是一种逻辑方法,通过将整个 3D 场景集成到 LLM 中,使模型能够捕获 LiDAR 数据中的基本信息和细节。
然而,由于缺乏用于字幕训练的直接 LiDAR 和文本描述对,我们利用 nuScenes [7] 中与 LiDAR 数据对齐的现有多视图图像来创建文本描述。利用强大的现成 2D 多模态 LLM (MLLM) [28, 50],我们为每个视图生成字幕,创建与 LiDAR 场景相对应的文本描述。然而,LiDAR 数据和 2D 多视图的字幕并不完全一致,因为 2D MLLM 可能会为 2D 图像提供与天气或颜色相关的描述,而这些描述不适用于 LiDAR 数据。为了解决这种不一致,我们进一步使用 GPT-4 [34] 来筛选出与 LiDAR 数据更相关且更合适的字幕。
利用收集到的 LiDAR-caption 对,我们的目标是使 LLaMA 能够根据 LiDAR 输入生成描述性文本。我们观察到,由于 LiDAR 数据的几何结构复杂,其文本字幕往往过于详细和冗长。联合学习整体字幕可能会导致 LLM 推理中的纠缠。为了缓解这种情况,我们最初训练模型为单个视图添加字幕以降低复杂性。使用交叉熵损失,输出字幕由相应视图的真实答案监督。在使模型获得单个视图的字幕技能后,后续步骤涉及指示模型了解整个全景场景并生成全局描述。通过这样做,我们将 3D 特征表示与 LLM 的文本特征空间对齐,使模型能够理解 LiDAR 数据中的上下文。
感知:在为模型配备全局场景理解后,此阶段专注于赋予模型实例级感知能力,因为它们构成了规划等高级教学任务的基础。为了实现这一点,我们采用了以对象为中心的学习策略,确保模型能够识别各种对象细节,例如数量、定位和空间关系。该模型学习单个 3D 对象的表示与与对象相关的 LLM 的相应文本嵌入之间的对齐。
为此,我们设计了两个任务,即视觉接地和接地字幕。首先将对象表示为离散标记序列,其中提取每个对象的标签和边界框。给定一个带有注释的 3D 对象,使用预训练 LLM 的标记器将类别名称和位置编码为词嵌入。与之前的室内 3D MLLM [45] 不同,不需要单独从点云中提取每个对象;相反,我们在整个 3D 场景中实现对象感知。对于视觉接地,该模型学习根据 LiDAR 输入和指令生成指定区域位置 (x1、y1、z1、x2、y2、z2、θ) 的位置标记,其中 θ 是框角度。接地字幕任务被定位为视觉接地的反向对应项。该模型通过利用输入的 LiDAR 数据和带有位置信息的文本来训练生成描述性文本。这两项任务的输出都通过交叉熵损失进行监督。指令的表述如图 3 所示。此对齐过程旨在将 3D 视觉对象嵌入与文本嵌入空间对齐,从而释放 LLM 的 3D 感知能力。
高级指令:在此阶段,我们全面了解了 LiDAR 场景并为模型配备了基本的 3D 感知功能,然后利用高级指令数据集(例如 nuScenes-QA [38])进一步增强模型在 3D 空间中的推理能力。通过使用此数据集对 LiDAR-LLM 进行微调,我们不仅提高了其理解各种指令的能力,还使其能够生成既有创意又符合语境的响应。此外,这一改进过程使 LiDAR-LLM 能够进行复杂的空间推理并将外部知识整合到其生成的响应中。这些任务也通过交叉熵损失进行监督,确保模型的输出与所需的高级指令有效对齐。同时,我们还在 nuScenes 数据集 [7] 上探索了 LiDAR-LLM 的自动驾驶规划能力。我们不生成任何规划 QA 数据,而是直接利用训练好的模型来推断与规划相关的问题。我们发现,通过我们提出的三阶段训练策略,LiDAR-LLM 可以开发初步的规划能力,如图 3 所示。结果还表明,我们的训练流程可以刺激模型在 3D LiDAR 数据中的推理能力。
LiDAR-LLM 与各种任务和数据集进行联合微调,使其具备了一套多功能的技能,能够熟练地处理复杂的跨模态场景中的各种任务。在微调阶段,我们对由我们生成的 700K LiDAR-文本对和 460K 公开可用的数据集 [38] 组成的数据集进行微调。在整个训练过程中,上述任务都是循序渐进地进行系统训练的。在推理过程中,我们的输入仍然由 LiDAR 和问题文本组成。我们可以灵活地单独推断每个问题或连续推断多个问题。
总之,我们的论文代表了一项开创性的努力,旨在释放 LLM 的推理能力来理解户外 LiDAR 数据。我们提出的 LiDAR-LLM 将 3D 户外场景理解的复杂挑战重新表述为语言建模问题。为了训练 LiDAR-LLM,我们生成了一套全面的 LiDARtext 配对数据集,包括 420K 3D 字幕和 280K 3D 基础数据。然后,我们引入了一种三阶段训练策略,涉及跨模态对齐、感知和高级指令,将 LiDAR 模态与 LLM 的语言嵌入空间对齐。我们的架构创新引入了 View-Aware Transformer (VAT) 来将 3D 编码器与 LLM 连接起来。这种设计有效地弥合了模态差距,增强了 LLM 对 LiDAR 特征中空间方向的理解。通过对我们生成的数据集和开源数据集进行大量实验,我们的 LiDAR-LLM 在各种任务中表现出色,包括 3D 字幕、3D 接地、3D 问答和自动驾驶规划。在未来的工作中,我们将探索 MLLM 的持续迁移学习 [20, 32, 47] 和轻量级操作 [8, 29],从而可以在边缘设备上部署 MLLM。