Research

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

核心摘要该论文提出了一个名为ODYSSEY的统一移动操控框架，专为配备了机械臂的敏捷四足机器人设计。该框架旨在解决语言引导下的长时程、开放世界移动操控任务中的三大核心挑战：一是如何将基于大语言模型的规划能力从桌面场景扩展到具有自我中心感知和运动限制的移动平台；二是如何提升操控策略在面对开放世界中多样化物体的泛化能力；三是如何在非结构化环境中同时实现机器人平台的高机动性与末端执行器的高精度控制。ODYSSEY通过无缝集成高级任务规划与低级全身控制来应对这些挑战。它包含一个由视觉语言模型驱动的层级化规划器，一个能够适应挑战性地形的全身控制策略，以及首个用于评估长时程移动操控的综合性基准测试。通过成功的模拟到真实（sim-to-real）迁移，该系统在真实世界部署中展现了强大的泛化性和鲁棒性。 ...

TOWARDS REALISTIC UAV VISION-LANGUAGE NAVIGATION: PLATFORM, BENCHMARK, AND METHODOLOGY

一、核心思想（一句话概括）这篇论文指出，当前的无人机视觉语言导航（VLN）研究因脱离现实而受限。为此，作者团队提供了一套从仿真平台、评测基准到AI模型的“全栈式”解决方案，旨在系统性地推动该领域走向更逼真、更复杂的实际应用。 ...

UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents

核心摘要该论文针对空中智能体（如无人机）在开放世界中的物体目标导航任务，提出了一个名为UAV-ON 的大规模基准测试平台。与依赖详细、逐步语言指令的传统视觉语言导航范式不同，UAV-ON 要求智能体根据高级的语义目标自主导航，从而更贴近现实世界中对无人机自主性的要求。该基准包含14个高保真度的室外环境和超过1270个目标物体。为了评估该基准的挑战性，论文实现并测试了多种基线方法，包括一个基于大型多模态模型的零样本模块化策略AOA。实验结果表明，所有基线方法在该任务上都表现不佳，凸显了空中导航与语义目标理解相结合的复合型挑战。UAV-ON旨在推动由语义目标驱动的、可扩展的无人机自主导航研究。 ...

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning

一、总结论文研究人员训练了一个大型视觉-语言模型 (LVLM)，让它像人一样，仅通过第一人称视角视频来理解自然语言指令，并在连续的 3D 虚拟环境中直接输出导航动作，其核心技术是一种“先模仿、再试错”的两阶段训练方法。 ...

DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities

论文概览论文标题：DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities 主要贡献：提出了一个专门评估大语言模型长文本推理能力的新基准数据规模：100个专家级问答问题，涵盖5个现实领域 ...

FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models

论文概览论文标题：FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models 数据规模：820条精心设计的指令，涵盖50+个NLP任务核心创新：首创多层级细粒度约束遵循评估框架 ...

WritingBench: A Comprehensive Benchmark for Generative Writing

论文概览论文标题：WritingBench: A Comprehensive Benchmark for Generative Writing 数据规模：1,239个精心设计的查询，跨越6大核心领域100个子领域核心创新：首创查询依赖评估框架，动态生成实例特定标准 ...