AerialVLN: Vision-and-language Navigation for UAVs

发表: ICCV 作者:Shubo Liu1† Hongsheng Zhang1† Yuankai Qi2 Peng Wang1* Yanning Zhang1 Qi Wu2 机构: Northwestern Polytechnical University、University of Adelaide 显卡: unknown 一、核心摘要 (一句话总结) 这篇论文提出并构建了第一个面向城市级别、基于无人机(UAV)的视觉-语言导航任务(AerialVLN)。作者们创建了一个大规模、近乎真实的仿真环境与配套数据集,并证明了现有的导航模型在此任务上表现不佳,从而开辟了一个充满挑战的全新研究方向。 ...

2025年09月15日 · 4 分钟 · 1704 字 · ZhaoYang

CityNav: A Large-Scale Dataset for Real-World Aerial Navigation

一、核心概览 论文标题: CityNav: A Large-Scale Dataset for Real-World Aerial Navigation (一个用于真实世界空中导航的大规模数据集) 核心思想: 这篇论文的主要工作不是提出一个全新的导航模型,而是发布了首个大规模、基于真实世界城市构建的空中视觉语言导航 (Aerial VLN) 数据集——CityNav。它旨在为该领域设立一个新的、更具挑战性的行业基准 (Benchmark)。同时,论文附带提出了一种名为地理语义地图 (GSM) 的辅助方法,用于将地理信息(如地图、地标)融合进现有模型,以验证新数据集的有效性并提供一个强大的基线。 ...

2025年09月15日 · 4 分钟 · 1650 字 · ZhaoYang

TOWARDS REALISTIC UAV VISION-LANGUAGE NAVIGATION: PLATFORM, BENCHMARK, AND METHODOLOGY

一、核心思想(一句话概括) 这篇论文指出,当前的无人机视觉语言导航(VLN)研究因脱离现实而受限。为此,作者团队提供了一套从仿真平台、评测基准到AI模型的“全栈式”解决方案,旨在系统性地推动该领域走向更逼真、更复杂的实际应用。 ...

2025年09月15日 · 5 分钟 · 2139 字 · ZhaoYang

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning

2025年09月15日 · 0 分钟 · 0 字 · ZhaoYang