SpatialVLM

图 1 | 我们展示了 SpatialVLM,这是一种数据合成和预训练机制,用于增强 VLM 的空间推理能力。我们证明,在我们的合成数据上训练的 VLM 表现出强大的空间推理能力,并且可以从 2D 输入图像生成度量距离估计,从而解决了当前最先进的 VLM(如 GPT-4V)的盲点。(∗ GPT-4V 于 2023 年 11 月访问)。 ...

2024年07月01日 · 11 分钟 · 5090 字 · ZhaoYang

LL3DA

abstract 大型多模态模型 (LMM) 的最新进展使得人机交互中的各种应用成为可能。然而,开发能够在复杂多样的 3D 环境中理解、推理和规划的 LMM 仍然是一个具有挑战性的课题,尤其是考虑到理解 3D 场景的置换不变点云 3D 表示的需求。现有的工作寻求多视图图像的帮助,并将 2D 特征投射到 3D 空间作为 3D 场景表示。然而,这会导致巨大的计算开销和性能下降。在本文中,我们介绍了 LL3DA,这是一种大型语言 3D 助手,它将点云作为直接输入并响应文本指令和视觉提示。这有助于 LMM 更好地理解人类互动,并进一步帮助消除混乱的 3D 场景中的歧义。实验表明,LL3DA 取得了显著的效果,在 3D 密集字幕和 3D 问答方面均超越了各种 3D 视觉语言模型。 ...

2024年06月27日 · 3 分钟 · 1185 字 · ZhaoYang

point-llm

abstract 大型语言模型 (LLM) 的空前进步对自然语言处理产生了深远的影响,但尚未完全涵盖 3D 理解领域。本文介绍了 PointLLM,这是填补这一空白的初步努力,使 LLM 能够理解点云,并提供了超越 2D 视觉数据的新途径。PointLLM 通过人类指令理解彩色物体点云并生成适合上下文的响应,说明其对点云和常识的掌握。具体而言,它利用具有强大 LLM 的点云编码器有效地融合几何、外观和语言信息。我们收集了一个由 660K 个简单和 70K 个复杂点文本指令对组成的新数据集,以实现两阶段训练策略:对齐潜在空间,然后对统一模型进行指令调整。为了严格评估 PointLLM 的感知和泛化能力,我们建立了两个基准:生成式 3D 对象分类和 3D 对象字幕,通过三种不同的方法进行评估,包括人工评估、GPT-4/ChatGPT 评估和传统指标。实验结果表明,PointLLM 的性能优于现有的 2D 和 3D 基线,在人工评估的对象字幕任务中取得了显著成就,在超过 50% 的样本中超越了人工注释者。代码、数据集和基准可在 https://github.com/OpenRobotLab/PointLL 上找到 ...

2024年06月27日 · 7 分钟 · 3181 字 · ZhaoYang

LiDAR-LLM.md

在本文中,如图 1 所示,我们介绍了 LiDARLLM,这是一种利用 LLM 的推理能力全面理解户外 3D 场景的新方法。LiDAR-LLM 架构包括 3D LiDAR 编码器、中间对齐变换器和 LLM,例如 LLaMA [42]。LiDARLLM 的关键见解在于通过解释性语言建模重新定义 3D 场景认知问题。然而,引入 LLM 来感知户外 3D 场景面临两个挑战:(1)与丰富的图像文本配对数据 [9, 40, 41] 相比,3D LiDAR-文本配对数据极其稀少,并且缺乏易于获取的多模态模型(例如 CLIP [39])。(2)3D LiDAR 数据包含各种对象及其之间复杂的几何关系。以户外自动驾驶为例, 其中自主车辆被各种移动和静止的物体所包围,这些物体相互遮挡和影响。 ...

2024年06月25日 · 10 分钟 · 4765 字 · ZhaoYang

Cube-LLM

https://news.cafa.edu.cn/MobileNews/independenWeixinContent?contentId=225334751 abstract 多模态大型语言模型 (MLLM) 在各种 2D 视觉和语言任务中表现出令人难以置信的能力。我们将 MLLM 的感知能力扩展到对 3 维空间中的图像进行基础和推理。为此,我们首先通过将多个现有的 2D 和 3D 识别数据集结合在一个共同的任务公式下(即多轮问答),开发了一个称为 LV3D 的 2D 和 3D 大规模预训练数据集。接下来,我们引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 上对其进行预训练。我们表明,纯数据缩放可以实现强大的 3D 感知能力,而无需 3D 特定的架构设计或训练目标。Cube-LLM 表现出与 LLM 类似的有趣特性:(1) Cube-LLM 可以应用思路链提示来从 2D 上下文信息中提高 3D 理解。 (2) Cube-LLM 可以遵循复杂多样的指令,并适应多种输入和输出格式。 (3) Cube-LLM 可以以视觉方式提示,例如来自专家的 2D 框或一组候选 3D 框。 我们在户外基准测试上的实验表明,Cube-LLM 在 Talk2Car 数据集上对 3D 基础推理的 APBEV 得分显著高于现有基线 21.3 分,在 DriveLM 数据集上对驾驶场景的复杂推理的 APBEV 得分显著高于现有基线 17.7 分。 Cube-LLM 在一般 MLLM 基准测试(例如 refCOCO 的 2D 基础推理,平均得分为 (87.0))以及视觉问答基准(例如 VQAv2、GQA、SQA、POPE 等复杂推理)中也表现出了竞争力。 我们的项目可在 https://janghyuncho.github.io/Cube-LLM 上找到。 ...

2024年06月21日 · 5 分钟 · 2196 字 · ZhaoYang

3D-LLM:Injecting the 3D World into Large Language Models

https://blog.51cto.com/u_16282361/7841645 3D-LLM的优势: By taking the 3D representations of scenes as input, LLMs are blessed with twofold advantages: (1) long-term memories about the entire scene can be stored in the holistic 3D representations, instead of episodic partial-view observations. (2) 3D properties such as affordances and spatial relationships can be reasoned from 3D representations, far beyond the scope of language-based or 2D image-based LLMs. (1)有关整个场景的长期记忆可以存储在整体 3D 表示中,而不是情景式的部分视图观察中。(2)诸如可供性和空间关系等 3D 属性可以从 3D 表示中推理出来,远远超出了基于语言或基于 2D 图像的 LLM 的范围。 ...

2024年06月15日 · 4 分钟 · 1836 字 · ZhaoYang

When LLMs step into the 3D World: A Surveyand Meta-Analysis of 3D Tasks via Multi-modalLarge Language Models

3DLLM任务和指标 3.1 3D Captioning(3D->text) 任务: 给定场景或对象的 3D 数据,3D 字幕的任务是生成相应的简短自然语言描述。 在这里,我们根据要加字幕的数据类型和生成的字幕类型,将此任务分解为几个常见的问题变体: ...

2024年06月12日 · 32 分钟 · 15985 字 · ZhaoYang