point-llm
abstract 大型语言模型 (LLM) 的空前进步对自然语言处理产生了深远的影响,但尚未完全涵盖 3D 理解领域。本文介绍了 PointLLM,这是填补这一空白的初步努力,使 LLM 能够理解点云,并提供了超越 2D 视觉数据的新途径。PointLLM 通过人类指令理解彩色物体点云并生成适合上下文的响应,说明其对点云和常识的掌握。具体而言,它利用具有强大 LLM 的点云编码器有效地融合几何、外观和语言信息。我们收集了一个由 660K 个简单和 70K 个复杂点文本指令对组成的新数据集,以实现两阶段训练策略:对齐潜在空间,然后对统一模型进行指令调整。为了严格评估 PointLLM 的感知和泛化能力,我们建立了两个基准:生成式 3D 对象分类和 3D 对象字幕,通过三种不同的方法进行评估,包括人工评估、GPT-4/ChatGPT 评估和传统指标。实验结果表明,PointLLM 的性能优于现有的 2D 和 3D 基线,在人工评估的对象字幕任务中取得了显著成就,在超过 50% 的样本中超越了人工注释者。代码、数据集和基准可在 https://github.com/OpenRobotLab/PointLL 上找到 ...