NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models
核心摘要 该论文旨在解决当前基于大语言模型的导航智能体与专门为视觉语言导航任务设计的模型之间存在的显著性能差距。同时,现有方法在集成LLM时,往往牺牲了LLM生成可解释性导航推理和与人交互的宝贵语言能力。为解决这些问题,论文提出了一个名为NavGPT-2的新框架。该框架巧妙地结合了一个冻结的大型视觉语言模型和一个专门的导航策略网络。其核心思想是,不直接微调整个LLM进行导航,而是利用VLM强大的内部表示作为导航策略网络的输入。通过这种方式,NavGPT-2不仅保留了LLM生成人类可读的导航推理的能力,而且在导航性能上成功消除了与领域内最先进(SOTA)的专门模型之间的差距,并展现出更高的数据效率。 ...