AerialVLN: Vision-and-language Navigation for UAVs

发表: ICCV 作者:Shubo Liu1† Hongsheng Zhang1† Yuankai Qi2 Peng Wang1* Yanning Zhang1 Qi Wu2 机构: Northwestern Polytechnical University、University of Adelaide 显卡: unknown 一、核心摘要 (一句话总结) 这篇论文提出并构建了第一个面向城市级别、基于无人机(UAV)的视觉-语言导航任务(AerialVLN)。作者们创建了一个大规模、近乎真实的仿真环境与配套数据集,并证明了现有的导航模型在此任务上表现不佳,从而开辟了一个充满挑战的全新研究方向。 ...

2025年09月15日 · 4 分钟 · 1704 字 · ZhaoYang

AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models

核心摘要 该论文针对航空航天领域的具身智能,特别是无人机(Unmanned Aerial Vehicles, UAVs)智能体的研究空白,提出了一个名为AeroVerse的综合性基准测试套件。现有研究大多集中于地面或室内的具身智能,而该工作首次为无人机智能体构建了一个完整的生态系统,涵盖模拟、预训练、微调和评估。AeroVerse包含一个名为AeroSimulator的仿真平台、两个大规模预训练数据集(一个基于真实世界,一个基于虚拟世界)、五个为无人机全新定义的下游任务及其配套的微调指令数据集,以及一套基于GPT-4的自动化评估方法。通过对十余种主流2D和3D视觉语言模型的广泛测试,论文揭示了现有模型在处理复杂的空中具身任务时的潜力和局限性,并强调了构建航空航天专属的具身世界模型的必要性。 ...

2025年09月15日 · 6 分钟 · 2857 字 · ZhaoYang

CityNav: A Large-Scale Dataset for Real-World Aerial Navigation

一、核心概览 论文标题: CityNav: A Large-Scale Dataset for Real-World Aerial Navigation (一个用于真实世界空中导航的大规模数据集) 核心思想: 这篇论文的主要工作不是提出一个全新的导航模型,而是发布了首个大规模、基于真实世界城市构建的空中视觉语言导航 (Aerial VLN) 数据集——CityNav。它旨在为该领域设立一个新的、更具挑战性的行业基准 (Benchmark)。同时,论文附带提出了一种名为地理语义地图 (GSM) 的辅助方法,用于将地理信息(如地图、地标)融合进现有模型,以验证新数据集的有效性并提供一个强大的基线。 ...

2025年09月15日 · 4 分钟 · 1650 字 · ZhaoYang

Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning

核心摘要 该论文旨在解决机器人操控领域的两大核心挑战:策略的泛化能力和执行效率。尽管近期基于视觉语言模型的基础策略模型受益于其强大的常识推理能力,但它们通常执行频率很低,难以满足实时控制的需求。为解决此问题,受卡尼曼双系统理论的启发,研究者们提出了双系统方法,即使用一个基于VLM的“慢速”系统2进行高级推理,并配合一个独立的“快速”系统1动作模型来保证实时控制。然而,现有设计将两个系统作为独立模型,限制了系统1充分利用系统2中VLM丰富的预训练知识。为此,本文提出了一个名为Fast-in-Slow, FiS的统一双系统视觉-语言-动作(VLA)模型。其创新之处在于,通过部分参数共享,将系统1执行模块嵌入到基于VLM的系统2内部。这种“快在慢中”的范式不仅使系统1能够进行高频执行,还促进了单个基础模型内部推理与执行组件的协调。考虑到两个系统在FiS-VLA中扮演着根本不同的角色,研究者为它们设计了异构的模态输入和异步的操作频率,以实现快速而精准的操控。为了协调两个系统,论文提出了一种双重感知协同训练策略,在赋予系统1动作生成能力的同时,保留了系统2的上下文推理表示能力。在评估中,FiS-VLA的平均成功率在模拟任务中比现有SOTA方法高出8%,在真实世界任务中高出11%,同时在动作序列长度为8时,控制频率达到了117.7Hz。 ...

2025年09月15日 · 6 分钟 · 2532 字 · ZhaoYang

LLM as Copilot for Coarse-grained Vision-and-Language Navigation

核心摘要 该论文针对粗粒度视觉语言导航(Vision-and-Language Navigation, VLN)任务,提出了一种名为VLN-Copilot的新框架。在粗粒度VLN任务中,智能体接收的是简短、高级的文本指令(如“去浴室把镜子擦干净”),这类指令因信息量有限而难以执行。为解决此问题,VLN-Copilot引入大语言模型(Large Language Models, LLM)作为智能体的“副驾驶”。该框架的核心创新在于,智能体能够基于一个“困惑度分数”(confusion score)来主动判断自己是否需要帮助,并在感到困惑时向LLM求助。LLM会分析智能体当前的处境(包括视觉观察和历史轨迹),并提供针对性的、多样化的实时指导。实验结果表明,该方法在两个主流的粗粒度VLN数据集上取得了显著效果。 ...

2025年09月15日 · 6 分钟 · 2736 字 · ZhaoYang

MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

核心摘要 该论文旨在解决应用于机器人领域的多模态大语言模型(Multimodal Large Language Models, MLLMs)因其巨大的计算和存储需求而难以在真实世界部署的问题。受神经科学中的“浅脑假说”(Shallow Brain Hypothesis)和机器学习中的“专家混合”(Mixture-of-Experts)技术启发,研究者提出了一种名为MoLe-VLA(或简称MoLe)的新型视觉-语言-动作(VLA)模型架构。其核心思想是将大语言模型的每一层视为一个独立的“专家”,并通过一个动态路由机制,根据当前任务需求有选择性地激活(即计算)一部分层,而跳过其他层,从而大幅降低计算成本。为了实现智能的层选择,论文设计了一个“时空感知路由器”(Spatial-Temporal Aware Router, STAR)。为了弥补因跳过层而可能损失的模型认知能力,论文还提出了一种“认知自知识蒸馏”(Cognition self-Knowledge Distillation, CogKD)方法。在仿真和真实机器人上的大量实验证明,MoLe-VLA架构在显著降低计算成本(最多减少约5.6倍)的同时,还能提升任务成功率(平均提升8%),在效率和性能上均表现出色。 ...

2025年09月15日 · 6 分钟 · 2958 字 · ZhaoYang

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

核心摘要 该论文旨在解决当前基于大语言模型的导航智能体与专门为视觉语言导航任务设计的模型之间存在的显著性能差距。同时,现有方法在集成LLM时,往往牺牲了LLM生成可解释性导航推理和与人交互的宝贵语言能力。为解决这些问题,论文提出了一个名为NavGPT-2的新框架。该框架巧妙地结合了一个冻结的大型视觉语言模型和一个专门的导航策略网络。其核心思想是,不直接微调整个LLM进行导航,而是利用VLM强大的内部表示作为导航策略网络的输入。通过这种方式,NavGPT-2不仅保留了LLM生成人类可读的导航推理的能力,而且在导航性能上成功消除了与领域内最先进(SOTA)的专门模型之间的差距,并展现出更高的数据效率。 ...

2025年09月15日 · 5 分钟 · 2496 字 · ZhaoYang