LL3DA
abstract 大型多模态模型 (LMM) 的最新进展使得人机交互中的各种应用成为可能。然而,开发能够在复杂多样的 3D 环境中理解、推理和规划的 LMM 仍然是一个具有挑战性的课题,尤其是考虑到理解 3D 场景的置换不变点云 3D 表示的需求。现有的工作寻求多视图图像的帮助,并将 2D 特征投射到 3D 空间作为 3D 场景表示。然而,这会导致巨大的计算开销和性能下降。在本文中,我们介绍了 LL3DA,这是一种大型语言 3D 助手,它将点云作为直接输入并响应文本指令和视觉提示。这有助于 LMM 更好地理解人类互动,并进一步帮助消除混乱的 3D 场景中的歧义。实验表明,LL3DA 取得了显著的效果,在 3D 密集字幕和 3D 问答方面均超越了各种 3D 视觉语言模型。 ...