核心摘要

该论文针对航空航天领域的具身智能,特别是无人机(Unmanned Aerial Vehicles, UAVs)智能体的研究空白,提出了一个名为AeroVerse的综合性基准测试套件。现有研究大多集中于地面或室内的具身智能,而该工作首次为无人机智能体构建了一个完整的生态系统,涵盖模拟、预训练、微调和评估。AeroVerse包含一个名为AeroSimulator的仿真平台、两个大规模预训练数据集(一个基于真实世界,一个基于虚拟世界)、五个为无人机全新定义的下游任务及其配套的微调指令数据集,以及一套基于GPT-4的自动化评估方法。通过对十余种主流2D和3D视觉语言模型的广泛测试,论文揭示了现有模型在处理复杂的空中具身任务时的潜力和局限性,并强调了构建航空航天专属的具身世界模型的必要性。

研究背景与挑战

当前,具身智能的研究主要集中在室内场景(如机器人手臂)或室外地面智能体(如自动驾驶汽车),而针对无人机(UAV)的具身智能体及其“世界模型”的研究尚属空白。论文指出,构建无人机具身智能数据集面临三大核心挑战:

  • 任务定义缺失:与成熟的地面任务(如导航、问答)不同,空中智能体在四维时空中的感知、认知、规划和决策等任务缺乏清晰的定义。

  • 3D数据获取困难:室外大规模3D数据的采集需要无人机等专业设备和技能,门槛远高于室内场景。

  • 数据收集成本高昂:无人机运动自由度高、活动范围广(可达数十至数百平方公里),环境复杂多变,导致数据标注的培训和执行成本极高。

主要贡献:AeroVerse基准套件

为解决上述挑战,论文构建了AeroVerse,一个端到端的无人机智能体基准套件。其主要贡献和组成部分如下:

  • 首次为无人机构建大规模预训练数据集:包含一个真实世界数据集(AerialAgent-Ego10k)和一个虚拟对齐数据集(CyberAgent-Ego500k),旨在增强模型对真实和虚拟环境的适应能力。

  • 首次清晰定义五大航空航天具身任务:明确了无人机在感知、认知、行动层面的五项核心能力,并为这些任务创建了相应的指令微调数据集。

  • 开发了基于GPT-4的自动化评估方法:提出了一套名为SkyAgent-Eval的评估体系,能够全面、客观地评估模型在各项任务上的表现,结果更贴近人类偏好。

  • 集成并开源完整的工具链:将仿真器、十余个2D/3D视觉语言模型、2个预训练数据集、5个微调数据集及10余种评估指标整合为一个统一的基准套件,推动领域发展。

AeroVerse套件详解
3.1 仿真平台:AeroSimulator
  • 技术栈:基于Unreal Engine 4和Microsoft AirSim构建,用于模拟真实的无人机飞行场景。

  • 场景:包含四个根据真实物理位置3D重建的高质量城市场景(上海、深圳、学校、居民区),面积从30公顷到3700公顷不等。

  • 功能:能够模拟不同的光照条件(白天、日落、夜晚)、天气(晴天、多云、雪天)和季节,并实时输出RGB图像、深度图和物体分割图。

3.2 预训练数据集
  • AerialAgent-Ego10k:首个大规模、真实世界的无人机第一人称视角图像文本预训练数据集。包含从真实城市航拍数据集中筛选的10,000张高分辨率图像,并使用LLaVA-1.5-13B模型为每张图像生成了详细的、关注空间关系的文本描述。

  • CyberAgent-Ego500k:一个虚拟环境中的图像-文本-位姿对齐数据集。包含在AeroSimulator中采集的500,000组数据,每组数据都包含无人机的第一人称视角图像、场景文本描述以及无人机在3D空间中的精确位姿(位置和姿态),旨在帮助模型学习空间定位与场景理解的关联。

3.3 五大下游任务与微调数据集

论文首次为无人机智能体定义了覆盖“感知-认知-行动”全链路的五大下游任务,并为每个任务构建了包含3000个样本的指令微调数据集。

  1. 航空航天具身场景感知 (SkyAgent-Scene3k):要求无人机根据自身位置,全景式地(前、后、左、右)描述周围环境中的物体及其属性。

  2. 航空航天具身空间推理 (SkyAgent-Reason3k):要求无人机基于3D环境进行复杂的空间关系推理,包括颜色、数量、形状、物体、预测性和反事实等六种推理模式。

  3. 航空航天具身导航探索 (SkyAgent-Nav3k):要求无人机遵循长距离、多阶段的导航指令,在探索城市环境的同时,回答关于途中遇到的物体特征的问题。

  4. 航空航天具身任务规划 (SkyAgent-Plan3k):要求无人机根据给定的起点和终点,生成一个详细的、分步骤的、以地标为引导的路径规划方案。

  5. 航空航天具身运动决策 (SkyAgent-Act3k):要求无人机根据起点和终点,生成一个完整的、从头到尾的底层动作序列(如前进、左转、上升等),实现端到端的自主飞行。

3.4 评估方法:SkyAgent-Eval

除了传统的文本评估指标(如BLEU, SPICE),该基准套件的核心创新是引入了基于GPT-4的自动化评估方法,旨在提供更接近人类判断的评估结果。

  • LLM-Judge-Scene:针对场景感知任务,从描述的细节丰富度和方向准确性两个维度进行评分。
  • LLM-Judge-Reason&Nav:针对推理和导航任务,评估模型回答的关联性和有效性。
  • LLM-Judge-Plan:针对任务规划,重点评估关键动作序列的对齐度以及沿途地标描述的准确性。
实验与结果分析

论文在AeroVerse上对超过10个主流的2D和3D视觉语言模型(如LLaVA, BLIP2, GPT-4o等)进行了广泛的评估。

  • 总体表现:实验结果表明,尽管这些模型在各自领域取得了显著进展,但在处理专为无人机设计的复杂具身任务时普遍面临挑战。模型在相对简单的场景感知任务上得分尚可,但在需要深度推理、导航和规划的任务上表现显著下降。

  • 模型对比:GPT-4系列模型(gpt-4-vision-preview和gpt-4o)在各项任务中总体表现最佳。而专用的3D视觉语言模型(3D-LLM)由于缺乏室外城市场景的训练,泛化能力有限,甚至会出现将城市场景描述为室内的严重“幻觉”。

  • 2D与3D模型的局限:2D模型虽然因其海量的预训练数据而具有更强的泛化能力,但它们只能处理单帧图像,缺乏对3D环境的整体理解,导致在需要综合空间信息的任务上表现不佳。

  • 任务难度:任务规划(SkyAgent-Plan3k)被证明是最具挑战性的任务,许多模型的得分甚至为零,这凸显了在复杂3D环境中进行长距离自主规划的巨大困难。

结论与未来展望

该研究成功构建并发布了AeroVerse,这是首个专为航空航天具身智能(特别是无人机智能体)设计的、集模拟、训练、评估于一体的综合性基准套件。它不仅填补了该领域的研究空白,还通过系统的任务定义和全面的实验评估,揭示了现有模型的不足,为未来构建专用的航空航天具身世界模型指明了方向。

未来,研究团队计划扩展仿真环境至更多城市和自然场景(如森林、山区),并持续扩充数据集,以期最终训练出成熟的航空航天具身世界模型,并将其应用于河流垃圾检测、电力巡检和森林火灾救援等实际场景中。