LLM as Copilot for Coarse-grained Vision-and-Language Navigation

核心摘要

该论文针对粗粒度视觉语言导航（Vision-and-Language Navigation, VLN）任务，提出了一种名为VLN-Copilot的新框架。在粗粒度VLN任务中，智能体接收的是简短、高级的文本指令（如“去浴室把镜子擦干净”），这类指令因信息量有限而难以执行。为解决此问题，VLN-Copilot引入大语言模型（Large Language Models, LLM）作为智能体的“副驾驶”。该框架的核心创新在于，智能体能够基于一个“困惑度分数”（confusion score）来主动判断自己是否需要帮助，并在感到困惑时向LLM求助。LLM会分析智能体当前的处境（包括视觉观察和历史轨迹），并提供针对性的、多样化的实时指导。实验结果表明，该方法在两个主流的粗粒度VLN数据集上取得了显著效果。

研究背景与动机

粗粒度VLN的挑战：传统的VLN任务通常提供精细的、分步的指令，这虽然有助于智能体学习，但与现实世界中人类习惯于给出简洁、高级指令的场景不符。以REVERIE数据集为代表的粗粒度VLN任务更贴近实际应用，但其简洁的指令给智能体的理解和决策带来了巨大挑战。
现有求助机制的局限性：以往的研究虽然也探索了让智能体在导航中寻求帮助的机制，但这些帮助通常是固化的，例如从预设的数据集或模拟器中获取固定的问答对或提示。这种方式缺乏灵活性，无法应对真实世界中复杂多变的场景。
LLM带来的机遇与现有方法的不足：LLM的出现为导航辅助提供了新的可能。已有方法（如MiC）尝试使用LLM来丰富粗粒度指令，但其求助方式是被动的（例如，仅在智能体进入新房间时触发），且提供的辅助类型单一（通常是生成更详细的规划），未能根据智能体遇到的具体困难提供定制化帮助。

主要贡献

提出VLN-Copilot框架：该框架创新性地将LLM定位为导航智能体的“副驾驶”，能够在智能体需要时提供实时、动态的帮助。

引入困惑度分数：设计了一种基于预测动作概率分布熵的“困惑度分数”，使智能体能够量化自身决策的不确定性，从而实现从“被动”接受帮助到“主动”请求帮助的转变。

利用LLM进行困难分析与指导：该方法利用LLM对智能体可能遇到的导航困难进行深度预分析，并提炼出几种有效的指导类型。在实际导航中，LLM能根据具体情况选择并生成最合适的指导。

在两个基准测试上验证了方法的有效性：通过在REVERIE和CVDN-target这两个粗粒度VLN数据集上的大量实验，证明了VLN-Copilot框架的优越性。

VLN-Copilot方法详解

3.1 核心机制：何时以及如何求助

何时求助（困惑度分数）：在每个决策点，智能体会预测下一步所有可选路径的概率分布。VLN-Copilot将该概率分布的信息熵计算为“困惑度分数”。当分数高于预设阈值时，意味着智能体对多个选项犹豫不决、决策不确定性高，此时便会触发向LLM的求助请求。
如何让LLM理解环境：由于LLM无法直接处理图像，智能体需要将视觉环境转化为文本。该方法使用现成的视觉语言模型（BLIP）来生成场景描述。当智能体求助时，会向LLM发送一个包含以下信息的文本提示（prompt）：
1. 原始的粗粒度任务指令。
2. 对当前所有候选路径的精细化场景描述。
3. 对已经过的历史轨迹的场景描述。

3.2 智能指导的生成：困难预分析与指导类型聚类

为了让LLM的帮助更具针对性，研究者首先进行了一项离线的困难预分析。

困难样本收集：让智能体在环境中导航，并收集其“困惑度分数”较高的时刻作为困难样本。
LLM预分析：使用一个精心设计的提示，让LLM分析这些困难样本，归纳出智能体决策困难的原因，并提出可能有用的指导信息类型。
指导类型聚类与提炼：对LLM提出的所有指导类型进行聚类分析，并结合实际可行性进行人工筛选，最终提炼出四种核心的、可执行的指导类别：
1. 位置（Location）：提供关于智能体当前位置和目标位置的信息。
2. 优先事项（Prioritization）：根据导航进度，提示当前最紧迫的任务。
3. 目的地描述（Destination Description）：提供关于目标位置的更详细信息，作为导航线索。
4. 过往观察（Previous Observations）：重述智能体的历史轨迹信息，帮助其回顾和决策。

3.3 在线指导流程

在实际导航过程中，当智能体的困惑度分数超阈值时：

智能体向LLM发送包含环境描述的求助请求。
LLM分析当前情况，从上述四种指导类型中选择最合适的一种。
LLM生成该类型的具体指导内容。例如，如果选择“目的地描述”，LLM会根据其内置的世界知识生成关于目的地的详细文本。
生成的指导信息会与原始的粗粒度指令拼接在一起，形成一个更丰富的“增强指令”。
智能体基于这个增强指令进行下一步的决策。

实验结果与分析

4.1 主要性能对比

在REVERIE数据集上，VLN-Copilot在多项关键指标上达到了与顶尖水平相当或超越的性能，尤其在目标定位相关的核心指标RGSPL上优于之前的方法。
在CVDN-target数据集上，VLN-Copilot在衡量导航进展的GP指标上显著优于所有对比方法。

4.2 消融研究

LLM指导类型选择的有效性：实验证明，由LLM智能选择一种指导类型（LLM-Selection）的效果，优于不使用指导、使用全部四种指导或随机选择一种指导。这表明盲目堆砌信息（All-Inclusive）反而会因信息冗余而降低性能。
各指导类型的贡献：四种指导类型单独使用时，都能对基线模型性能带来提升。其中，“位置”信息的帮助最大，而“目的地描述”和“过往观察”能有效帮助智能体减少不必要的探索，缩短路径长度。
困惑度分数与学习曲线：实验数据显示，使用了VLN-Copilot的模型，其困惑度分数下降得更快，表明LLM的指导有效降低了智能体在导航中的不确定性。同时，其学习曲线也显示出更快的收敛速度和更高的最终性能。

4.3 定性结果

论文展示了LLM生成指导的具体案例。例如，当任务是“去办公室”，而智能体面前有一条走廊和一个办公室两个选项时，LLM会提供“目的地描述”类型的指导：“目的地是办公室。它通常是一个有书桌、椅子和其他办公设备的建筑或房间。” 这条信息与候选方向2的视觉内容高度匹配，从而帮助智能体做出正确选择。

局限性与未来工作

当前方法依赖于将视觉信息转化为文本，这一过程可能存在信息损失。未来的工作将探索如何更有效地应用多模态大语言模型（如LLaVA），让模型能直接从图像中感知环境并提供指导。

结论

论文成功提出了VLN-Copilot框架，通过引入“困惑度分数”机制，使智能体能够主动向LLM求助。LLM作为“副驾驶”，能够智能分析智能体的困境并提供四种不同类型的定制化指导。该方法有效地解决了粗粒度VLN任务中指令信息不足的挑战，在多个基准测试中证明了其有效性。

核心摘要#

研究背景与动机#

主要贡献#

VLN-Copilot方法详解#

3.1 核心机制：何时以及如何求助#

3.2 智能指导的生成：困难预分析与指导类型聚类#

3.3 在线指导流程#

实验结果与分析#

4.1 主要性能对比#

4.2 消融研究#

4.3 定性结果#

局限性与未来工作#

结论#