核心摘要

该论文针对粗粒度视觉语言导航(Vision-and-Language Navigation, VLN)任务,提出了一种名为VLN-Copilot的新框架。在粗粒度VLN任务中,智能体接收的是简短、高级的文本指令(如“去浴室把镜子擦干净”),这类指令因信息量有限而难以执行。为解决此问题,VLN-Copilot引入大语言模型(Large Language Models, LLM)作为智能体的“副驾驶”。该框架的核心创新在于,智能体能够基于一个“困惑度分数”(confusion score)来主动判断自己是否需要帮助,并在感到困惑时向LLM求助。LLM会分析智能体当前的处境(包括视觉观察和历史轨迹),并提供针对性的、多样化的实时指导。实验结果表明,该方法在两个主流的粗粒度VLN数据集上取得了显著效果。

研究背景与动机
  • 粗粒度VLN的挑战:传统的VLN任务通常提供精细的、分步的指令,这虽然有助于智能体学习,但与现实世界中人类习惯于给出简洁、高级指令的场景不符。以REVERIE数据集为代表的粗粒度VLN任务更贴近实际应用,但其简洁的指令给智能体的理解和决策带来了巨大挑战。

  • 现有求助机制的局限性:以往的研究虽然也探索了让智能体在导航中寻求帮助的机制,但这些帮助通常是固化的,例如从预设的数据集或模拟器中获取固定的问答对或提示。这种方式缺乏灵活性,无法应对真实世界中复杂多变的场景。

  • LLM带来的机遇与现有方法的不足:LLM的出现为导航辅助提供了新的可能。已有方法(如MiC)尝试使用LLM来丰富粗粒度指令,但其求助方式是被动的(例如,仅在智能体进入新房间时触发),且提供的辅助类型单一(通常是生成更详细的规划),未能根据智能体遇到的具体困难提供定制化帮助。

主要贡献

提出VLN-Copilot框架:该框架创新性地将LLM定位为导航智能体的“副驾驶”,能够在智能体需要时提供实时、动态的帮助。

引入困惑度分数:设计了一种基于预测动作概率分布熵的“困惑度分数”,使智能体能够量化自身决策的不确定性,从而实现从“被动”接受帮助到“主动”请求帮助的转变。

利用LLM进行困难分析与指导:该方法利用LLM对智能体可能遇到的导航困难进行深度预分析,并提炼出几种有效的指导类型。在实际导航中,LLM能根据具体情况选择并生成最合适的指导。

在两个基准测试上验证了方法的有效性:通过在REVERIE和CVDN-target这两个粗粒度VLN数据集上的大量实验,证明了VLN-Copilot框架的优越性。

VLN-Copilot方法详解
3.1 核心机制:何时以及如何求助
  • 何时求助(困惑度分数):在每个决策点,智能体会预测下一步所有可选路径的概率分布。VLN-Copilot将该概率分布的信息熵计算为“困惑度分数”。当分数高于预设阈值时,意味着智能体对多个选项犹豫不决、决策不确定性高,此时便会触发向LLM的求助请求。

  • 如何让LLM理解环境:由于LLM无法直接处理图像,智能体需要将视觉环境转化为文本。该方法使用现成的视觉语言模型(BLIP)来生成场景描述。当智能体求助时,会向LLM发送一个包含以下信息的文本提示(prompt):

    1. 原始的粗粒度任务指令。

    2. 对当前所有候选路径的精细化场景描述。

    3. 对已经过的历史轨迹的场景描述。

3.2 智能指导的生成:困难预分析与指导类型聚类

为了让LLM的帮助更具针对性,研究者首先进行了一项离线的困难预分析。

  • 困难样本收集:让智能体在环境中导航,并收集其“困惑度分数”较高的时刻作为困难样本。

  • LLM预分析:使用一个精心设计的提示,让LLM分析这些困难样本,归纳出智能体决策困难的原因,并提出可能有用的指导信息类型。

  • 指导类型聚类与提炼:对LLM提出的所有指导类型进行聚类分析,并结合实际可行性进行人工筛选,最终提炼出四种核心的、可执行的指导类别:

    1. 位置(Location):提供关于智能体当前位置和目标位置的信息。

    2. 优先事项(Prioritization):根据导航进度,提示当前最紧迫的任务。

    3. 目的地描述(Destination Description):提供关于目标位置的更详细信息,作为导航线索。

    4. 过往观察(Previous Observations):重述智能体的历史轨迹信息,帮助其回顾和决策。

3.3 在线指导流程

在实际导航过程中,当智能体的困惑度分数超阈值时:

  1. 智能体向LLM发送包含环境描述的求助请求。

  2. LLM分析当前情况,从上述四种指导类型中选择最合适的一种。

  3. LLM生成该类型的具体指导内容。例如,如果选择“目的地描述”,LLM会根据其内置的世界知识生成关于目的地的详细文本。

  4. 生成的指导信息会与原始的粗粒度指令拼接在一起,形成一个更丰富的“增强指令”。

  5. 智能体基于这个增强指令进行下一步的决策。

实验结果与分析
4.1 主要性能对比
  • 在REVERIE数据集上,VLN-Copilot在多项关键指标上达到了与顶尖水平相当或超越的性能,尤其在目标定位相关的核心指标RGSPL上优于之前的方法。

  • 在CVDN-target数据集上,VLN-Copilot在衡量导航进展的GP指标上显著优于所有对比方法。

4.2 消融研究
  • LLM指导类型选择的有效性:实验证明,由LLM智能选择一种指导类型(LLM-Selection)的效果,优于不使用指导、使用全部四种指导或随机选择一种指导。这表明盲目堆砌信息(All-Inclusive)反而会因信息冗余而降低性能。

  • 各指导类型的贡献:四种指导类型单独使用时,都能对基线模型性能带来提升。其中,“位置”信息的帮助最大,而“目的地描述”和“过往观察”能有效帮助智能体减少不必要的探索,缩短路径长度。

  • 困惑度分数与学习曲线:实验数据显示,使用了VLN-Copilot的模型,其困惑度分数下降得更快,表明LLM的指导有效降低了智能体在导航中的不确定性。同时,其学习曲线也显示出更快的收敛速度和更高的最终性能。

4.3 定性结果

论文展示了LLM生成指导的具体案例。例如,当任务是“去办公室”,而智能体面前有一条走廊和一个办公室两个选项时,LLM会提供“目的地描述”类型的指导:“目的地是办公室。它通常是一个有书桌、椅子和其他办公设备的建筑或房间。” 这条信息与候选方向2的视觉内容高度匹配,从而帮助智能体做出正确选择。

局限性与未来工作

当前方法依赖于将视觉信息转化为文本,这一过程可能存在信息损失。未来的工作将探索如何更有效地应用多模态大语言模型(如LLaVA),让模型能直接从图像中感知环境并提供指导。

结论

论文成功提出了VLN-Copilot框架,通过引入“困惑度分数”机制,使智能体能够主动向LLM求助。LLM作为“副驾驶”,能够智能分析智能体的困境并提供四种不同类型的定制化指导。该方法有效地解决了粗粒度VLN任务中指令信息不足的挑战,在多个基准测试中证明了其有效性。