中科院自动化所万字长文最新综述！当无人机遇上大模型：低空机动性智能体的综述与展望

无人机（UAVs）的快速发展及其灵活性显著提升了智能系统的感知与决策能力，为升级传统系统并提高运营效率提供了强大手段。尽管UAVs具有诸多优势，但大多数UAVs仍依赖于人类操作员的控制。这种依赖不仅增加了劳动力成本，还带来了安全风险。此外，由于操作员的感知范围和灵敏度受限于机载传感器，这限制了UAVs在复杂环境中的可扩展性，从而阻碍了其广泛应用。近年来，人工智能（AI）领域，尤其是基础模型（FMs

xml.nudt

4834人浏览 · 2025-01-17 10:45:39

xml.nudt · 2025-01-17 10:45:39 发布

作者：Yonglin Tian, Fei Lin, Yiduo Li, Tengchao Zhang, Qiyao Zhang, Xuan Fu, Jun Huang, Xingyuan Dai, Yutong Wang, Chunwei Tian, Bai Li, Yisheng Lv, Levente Kovacs, Fei-Yue Wang
单位：中科院自动化所多模态人工智能系统国家重点实验室，澳门科技大学创新工程学院工程科学系，北京理工大学自动化学院，西北工业大学软件学院，湖南大学机械与车辆工程学院，布达佩斯奥布达大学冯·诺伊曼信息学院
原文链接：UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility (https://arxiv.org/pdf/2501.02341)
项目主页：https://github.com/Hub-Tian/UAVs_Meet_LLMs

主要贡献

论文提供了UAVs的全面概述，包括功能模块以及具体配置，有助于理解UAV的核心组件。
系统地回顾了近年来关于LLMs与UAVs集成的最新研究，包括了关键方法、多样化应用和主要挑战。
提出了UAVs智能体框架，概述了实现自主感知、推理、记忆和工具利用的必要架构和能力。
详细列举了支持UAVs智能发展的公开数据集资源，强调了这些数据在训练、评估和支持智能UAVs系统开发中的关键作用。
对UAVs和LLMs汇聚的关键任务和应用场景进行了分类和分析，提供了实际应用的视角。

介绍

无人机（UAVs）的快速发展及其灵活性显著提升了智能系统的感知与决策能力，为升级传统系统并提高运营效率提供了强大手段。

尽管UAVs具有诸多优势，但大多数UAVs仍依赖于人类操作员的控制。这种依赖不仅增加了劳动力成本，还带来了安全风险。此外，由于操作员的感知范围和灵敏度受限于机载传感器，这限制了UAVs在复杂环境中的可扩展性，从而阻碍了其广泛应用。

近年来，人工智能（AI）领域，尤其是基础模型（FMs）如ChatGPT、SORA以及各种AI生成内容（AIGC）框架的进展，为UAVs的智能化提供了新的途径。大型语言模型（LLMs）展现出了接近人类水平的常识推理和泛化能力，能够在多样化应用中实现高级理解、灵活适应和实时响应。

本文旨在探索础模型与UAVs的集成方式，并提供一个系统全面的综述，以促进对这一跨学科融合领域的理解。通过提供基础概述，论文在为研究人员和从业者提供一个参考框架，借助LLMs的能力来推进UAVs的自主性，进而扩大无人低空移动系统的应用潜力。

UAVs系统概述

UAVs功能模块

UAVs系统中各个功能模块扮演着不同的角色，共同协作，以实现特定的任务目标。

感知模块：
- 负责收集和解释来自多种传感器的数据，以实现对周围环境的全面理解。传感器包括RGB摄像头、事件相机、热像仪、3D摄像头、LiDAR、雷达和超声波传感器等。
- 感知模块提供情境感知，支持安全自主飞行，并在多UAVs协同任务中支持检测和跟踪其他UAVs。
- 使用先进的计算机视觉和机器学习技术来增强对象检测、语义分割和运动估计的准确性和鲁棒性。
- 通过传感器融合方法结合互补的数据源，以应对不断变化的环境条件。
导航模块：
- 负责将规划的轨迹转换为精确的飞行路径，通过连续估计和调整UAVs的位置、方向和速度来实现。
- 依赖于GPS、惯性测量单元（IMU）、视觉里程计和气压计等多种传感器，使用传感器融合算法来增强状态估计的可靠性和准确性。
- 在GPS受限或复杂环境中，采用同时定位与地图构建（SLAM）技术来提供鲁棒的定位和环境映射。
规划模块：
- 负责将高层任务目标转化为具体的飞行轨迹和动作，依赖于输入的感知数据来确保安全导航。
- 使用路径规划算法计算可行且优化的路线，涵盖启发式算法（如A*算法、遗传算法、模拟退火、粒子群优化）和机器学习方法（如神经网络、深度强化学习）。
- 在多UAVs或集群操作中，规划模块还负责协调飞行路线，确保碰撞避免和群体行为的一致性。
控制模块：
- 负责生成低级命令来调节UAVs的执行器（如电机、伺服和其他控制面），以维持稳定和飞行。
- 通过闭环控制确保UAVs遵循期望的轨迹和任务目标，使用经典和现代控制策略来管理潜在的干扰和不确定性。
通信模块：
- 支持UAVs与地面控制站、卫星和其他外部实体之间的数据交换，确保关键信息的无缝传输。
- 通信方法包括短距离射频系统、Wi-Fi链路、4G/5G网络和卫星链路等，选择合适的通信方法以满足特定的任务需求。
交互模块：
- 促进UAVs与操作员或其他智能体之间的无缝通信和协作，包括语音命令、手势识别、增强现实或虚拟现实显示等。
- 提供用户界面和交互范式，以增强操作员的情境感知和用户体验。
载荷模块：
- 负责UAVs携带的设备或货物，以实现特定的任务目标。载荷模块需要处理电源供应、数据传输、机械支持和稳定等问题。
- 设计灵活的模块化解决方案，以适应不同的任务需求。

UAVs类型

UAVs有着不同的配置类型，每种类型都有其独特的几何结构和应用场景。

固定翼UAVs（Fixed-Wing UAVs）：
- 具有固定的机翼形状，通过机翼产生升力以实现前进运动。
- 优点包括高速、长续航和稳定的飞行，适合长时间任务。
- 缺点是要求较高的飞行技能，无法悬停，对起飞和降落区域的要求较高。
多旋翼UAVs（Multirotor UAVs）：
- 通常配备多个旋翼（常见的是四轴、六轴或更多），通过旋翼旋转产生升力和控制。
- 优点包括低成本、易操作、能够垂直起降和悬停，适合精细任务。
- 缺点是续航时间有限、速度较慢、载荷容量较小。
无人直升机（Unmanned Helicopters）：
- 配备一个或两个动力旋翼，提供升力和姿态控制。
- 优点包括垂直起降、悬停、高机动性、长续航和良好的抗风能力，适合复杂任务。
- 缺点是结构复杂、维护成本较高、速度相对较慢。
混合UAVs（Hybrid UAVs）：
- 结合了固定翼和多旋翼的优点，能够在垂直飞行时使用旋翼，并在持续前进行驶时使用机翼。
- 优点包括灵活性高，能够执行多种任务，包括悬停和长距离飞行。
- 缺点是设计复杂、成本较高、维护要求高。
扑翼UAVs（Flapping-Wing UAVs）：
- 受鸟类或昆虫飞行机制的启发，通过翅膀拍打产生升力。
- 优点包括安静的操作、高效率和增强的机动性，适合紧凑尺寸的应用。
- 缺点是载荷容量较小，设计和控制系统较复杂。
无人飞艇（Unmanned Airship）：
- 利用轻质气体提供浮力，并通过推进和外部结构进行移动和方向控制。
- 优点包括低成本、低噪音。
- 缺点是灵活性有限、速度较低，容易受到风的影响，影响稳定性和可靠性。

UAVs集群

UAVs集群通过多个UAV协作来完成共享的目标，具有冗余、可扩展和高效的优势。

UAVs集群通过分布式决策和协作，能够在复杂环境中实现更高的任务效率和可靠性。
适用于大面积监控、精准农业和搜救等任务，能够覆盖更大的区域并提高任务执行的效率。

任务分配：
- 任务分配是UAVs集群操作中的关键问题之一，直接影响任务的效率。任务分配问题通常被建模为旅行商问题（TSP）或车辆路径问题（VRP），并使用启发式算法、AI方法和数学规划方法来解决。
- 常用的算法包括遗传算法（GA）、粒子群优化（PSO）、模拟退火（SA）和混合整数线性规划（MILP）模型。
通信架构：
- UAVs集群的通信可以通过基础设施架构和飞行自组织网络（FANET）来实现。基础设施架构依赖于地面控制站（GCS）进行管理，而FANET则通过UAVs之间的直接通信实现自主协调。
- FANET架构具有灵活性和可扩展性，但需要更强的通信协议来确保可靠性和应对动态拓扑。
路径规划：
- UAVs集群的路径规划涉及选择从起始位置到所有目标位置的最优路径，同时确保UAVs之间保持预定的距离以避免碰撞。
- 常用的算法包括智能优化算法（如蚁群优化、遗传算法、模拟退火、粒子群优化）和数学规划方法。
- AI方法也被应用于UAVs集群路径规划，以增强其在复杂环境中的适应性和鲁棒性。
编队控制算法：
- 编队控制算法使UAVs集群能够自主形成和维持编队，以执行任务并根据特定任务切换或重建编队。
- 主要的控制方法包括集中控制、分散控制和分布式控制。集中控制简化了决策过程，但存在单点故障的风险；分散控制提供了灵活性，但全局信息不足；分布式控制结合了两者的优点，但需要更高的通信和计算资源。

基础大模型

论文对基础模型（Foundation Models, FMs）进行了概述，重点介绍了大语言模型（LLMs）、视觉基础模型（VFM）和视觉语言模型（VLMs）的核心特性和技术优势。

大语言模型（LLMs）

核心能力：
- 泛化能力：LLMs通过在大规模语料库上训练，展现出强大的迁移能力，包括零样本（zero-shot）和少样本（few-shot）学习。这些能力使得LLMs能够在没有特定任务训练的情况下，或者仅通过少量示例就能有效地解决新任务。
- 复杂问题解决能力：LLMs能够通过生成中间推理步骤或结构化的逻辑路径来分解复杂问题，从而实现系统化和逐步的解决方案。这种方法被称为“思维链”（Chain of Thought, CoT）框架，通过分解任务为一系列子任务来逐步解决。
典型模型：
- OpenAI的GPT系列：包括GPT-3、GPT-3.5和GPT-4，这些模型在语言理解、生成和推理任务中设定了新的基准。
- Anthropic的Claude模型：包括Claude 2和Claude 3，这些模型通过强化学习优先考虑安全性和可控性，在多任务泛化和鲁棒性方面表现出色。
- Mistral系列：采用稀疏激活技术，平衡了效率和性能，强调低延迟推理。
- Google的PaLM系列：以其多模态能力和大规模参数化而闻名，后续的Gemini系列进一步提高了泛化能力和多语言支持。
- Meta的Llama模型：包括Llama 2和Llama 3，在多语言任务和复杂问题解决方面表现出色。
- Vicuna：通过微调对话数据集和低秩适应（LoRA）技术，增强了对话能力和任务适应性。
- Qwen系列：在多语言任务中表现出色，适用于多种任务。
- 其他模型：如InternLM、BuboGPT、ChatGLM、DeepSeek等，专注于特定领域的任务，如知识问答、对话生成和信息检索。

视觉语言模型（VLMs）

多模态任务：
- VLMs设计用于处理需要视觉和语言理解的任务，如视觉问答（VQA）、图像描述、视频理解等。它们通过结合视觉和语言信息，增强了模型的理解和生成能力。
典型模型：
- GPT-4V：OpenAI推出的GPT-4的视觉版本，展示了强大的视觉感知能力。它可以接受文本、音频和图像的任意组合输入，并能快速响应。
- Claude 3 Opus 和 Claude 3.5 Sonnet：Anthropic开发的模型，强调多任务泛化和可控性。它们在多模态任务中表现出色，特别是在需要复杂推理和任务执行的场景中。
- Step-2：Jieyue Xingchen提出的模型，采用创新的混合专家（MoE）架构，支持在大规模参数下进行高效的训练，显著提高了处理复杂任务的能力。
- LLaVA系列：Liu等人提出的模型，通过结合GPT-4和CLIP的视觉编码器，增强了多模态任务的表现。LLaVA的最新版本LLaVA-NeXT在捕捉视觉细节和复杂视觉逻辑推理任务中表现出色。
- Flamingo：Alayrac等人提出的模型，通过引入Perceiver Resampler和Gated Cross-Attention机制，有效整合了视觉和多模态信息，增强了模型在多模态任务中的表现。
- BLIP系列：Li等人提出的模型，通过结合预训练的视觉特征编码器和预训练的LLMs，生成相应的文本输出。BLIP-2引入了查询变换器（Q-Former）以更好地对齐视觉和语言模态。
- InstructBLIP：Dai等人提出的模型，通过大规模任务指令微调，进一步提高了模型在多模态任务中的适应性和任务执行能力。
应用场景：
- VLMs在视频理解、视觉推理和多模态任务中表现出色。例如，LLaMA-VID、IG-VLM、Video-ChatGPT和VideoTree等模型在视频内容分析和多模态任务中表现出色。
- 在视觉推理方面，X-VLM、Chameleon、HYDRA和VISPROG等模型通过创新架构和推理机制，提高了复杂视觉推理任务的准确性和适应性。

视觉基础模型（VFMs）

核心优势：
- VFMs通常具有大规模参数，能够在大规模数据集上进行训练，从而展现出卓越的泛化能力和跨任务转移性能。
- 它们在各种计算机视觉任务中表现出色，包括零样本对象检测、图像分割和深度估计等。
技术特点：
- VFMs通过在大规模图像-文本对上进行弱监督训练，实现了视觉和文本特征的有效对齐。这种方法使得模型能够同时理解和生成视觉和语言信息。
- 典型的VFMs包括CLIP、FILIP、RegionCLIP、EVA-CLIP等。CLIP是一个开创性的模型，通过在大规模数据集上进行训练，实现了视觉和文本特征的对齐。
应用场景：
- VFMs在对象检测任务中表现出色，能够实现零样本检测和少样本学习。例如，GLIP、DINO、Grounding DINO等模型在对象检测任务中表现出色。
- 在图像分割任务中，VFMs通过结合视觉和语言信息，提高了分割的准确性和鲁棒性。例如，CLIPSeg、SAM、Open-Vocabulary SAM等模型在图像分割任务中表现出色。
- 在深度估计任务中，VFMs能够实现单目深度估计，适用于复杂场景。例如，ZoeDepth、ScaleDepth、Depth Anything等模型在深度估计任务中表现出色。

UAVs数据集与仿真平台

UAVs研究相关的公开数据集和仿真平台是推动基于基础模型（FMs）的UAVs系统研究的重要资源。

通用领域数据集

环境感知：主要用于对象检测、分割和深度估计等任务。它们提供了丰富的视觉数据，帮助训练和评估UAVs在复杂环境中的感知能力。典型数据集包括：
- AirFisheye：专为复杂城市环境设计的多模态数据集，包含鱼眼图像、深度图像和点云数据。
- SynDrone：大规模合成数据集，用于城市环境中的检测和分割任务，提供像素级和对象级的标注。
- WildUAV：高分辨率RGB图像和深度数据集，用于单目视觉深度估计，支持精确的UAVs飞行控制。
事件识别：用于识别和分类视频中的事件，如灾难、交通事故、体育比赛等。它们帮助UAVs在动态环境中进行场景理解。典型数据集包括：
- CapERA：结合视频和文本描述的事件识别数据集。
- ERA：包含多种事件类别的视频数据集。
- VIRAT：包含静态地面和动态空中视频的事件识别数据集。
目标跟踪：用于评估UAVs在多目标跟踪任务中的性能。它们通常包含多种模态的数据，如视频、文本和音频。典型数据集包括：
- WebUAV-3M：大规模的UAVs目标跟踪数据集，包含视频、文本和音频描述。
- TNL2K：结合自然语言描述的目标跟踪数据集，支持跨模态跟踪研究。
- VOT2020：包含多种跟踪任务的综合性数据集。
动作识别：用于识别视频中的人类动作，帮助UAVs在复杂场景中进行行为分析。典型数据集包括：
- Aeriform In-Action：用于空中视频中的人类动作识别。
- MEVA：大规模的多视角、多模态视频数据集。
- UAV-Human：包含多种模态的视频数据集，用于动作识别和人体行为分析。
导航和定位：用于评估UAVs在导航和定位任务中的性能，特别是在结合视觉和语言信息的情况下。典型数据集包括：
- CityNav：用于语言引导的空中导航任务。
- AerialVLN：结合视觉和语言信息的UAVs导航数据集。
- VIGOR：用于交叉视图图像地理定位的数据集。

特定领域数据集

交通运输：主要用于交通监控、车辆和行人检测等任务。它们帮助UAVs在复杂的交通环境中进行目标识别和跟踪。典型数据集包括：
- TrafficNight：夜间车辆监控的多模态数据集，结合了RGB和热成像技术。
- VisDrone：大规模的UAVs目标检测和跟踪数据集，覆盖多个中国城市的多样场景。
- CADP：用于交通事故分析的数据集，增强了对小目标的检测能力。
遥感：用于遥感图像的对象检测、分类和定位任务。它们帮助UAVs在地理信息系统（GIS）和地球观测中发挥作用。典型数据集包括：
- xView：大规模的卫星图像数据集，包含多种对象类别的注释。
- DOTA：高分辨率航空图像的对象检测数据集。
- RSICD：用于场景分类的遥感图像数据集。
农业：用于农业图像的分割和分类任务，帮助UAVs在精准农业中进行作物监测和管理。典型数据集包括：
- Avo-AirDB：用于农业图像分割和分类的数据集。
- CoFly-WeedDB：用于棉花田杂草检测的数据集。
- WEED-2C：用于大豆田杂草检测的数据集。
工业应用：用于工业检查和维护任务，帮助UAVs在基础设施监控中进行缺陷检测和资产识别。典型数据集包括：
- UAPD：用于沥青路面裂缝检测的数据集。
- InsPLAD：用于电力线资产检测的数据集。
应急响应：用于灾害救援场景下的视觉理解任务，帮助UAVs在紧急情况下进行场景分析和救援操作。典型数据集包括：
- Aerial SAR：用于自然灾害监测和搜救操作的数据集。
- AFID：用于水道监控和灾害预警的数据集。
- FloodNet：用于灾后场景理解的数据集。
军事：用于军事图像的生成和理解任务，帮助UAVs在军事环境中进行情报收集和分析。典型数据集包括：
- MOCO：用于军事图像生成的数据集。
野生动物保护：用于野生动物监测和保护任务，帮助UAVs在自然环境中进行物种识别和栖息地监测。典型数据集包括：
- WAID：用于野生动物监测的大规模数据集。

3D 仿真平台

AirSim：
- 由微软开发的开源仿真平台，专为UAVs、自动驾驶车辆和其他自主系统设计。它基于Unreal Engine，提供高度真实的物理仿真和视觉效果。
- 支持多种设备和传感器（如摄像头、LiDAR、IMU、GPS等）的模拟，并提供强大的API以便于开发者进行扩展和集成。
CARLA：
- 由卡内基梅隆大学开发的开源自动驾驶仿真平台，基于Unreal Engine。它支持复杂的城市场景模拟，包括道路网络、动态交通、行人行为和多样的天气及光照条件。
- 支持多种传感器的模拟，并提供Python和C++ API，便于开发者进行算法开发和测试。
NVIDIA Isaac Sim：
- 由英伟达开发的机器人仿真平台，基于NVIDIA Omniverse平台。它提供高精度的物理仿真和实时渲染，支持多种机器人和自主系统的开发。
- 强调GPU加速和物理引擎技术，提供丰富的工具和插件，支持从感知、运动规划到控制算法的全流程开发。
AerialVLN Simulator：
- 专为UAVs智能体研究设计的高逼真度仿真平台，结合了Unreal Engine 4和Microsoft AirSim技术。它模拟典型的3D城市环境，支持多种环境设置和动态飞行操作。
- 提供高分辨率的RGB图像、深度图像和目标分割图，支持场景理解和空间建模。
Embodied City：
- 高逼真度3D城市仿真平台，基于真实世界的城市区域构建。它使用Unreal Engine，提供连续的感知和交互能力，支持多种智能体（如UAVs和地面车辆）的行为。
- 提供多种任务区域的模拟，包括场景理解、问答、对话、视觉语言导航和任务规划。

基于基础模型的UAVs系统进展

将大型语言模型（LLMs）、视觉基础模型（VFM）和视觉语言模型（VLMs）等基础模型（FMs）集成到UAVs系统，可以增强UAVs系统的智能性，显著提升其在复杂任务中的表现。

视觉感知

对象检测

对象检测是UAVs应用中的关键任务之一，但面临着多种挑战，包括飞行高度和视角的变化、动态环境条件以及场景的多样性。

传统的对象检测算法在处理这些复杂情况时表现出色，但仍然存在一些问题：

多尺度对象检测：由于UAVs的高度变化和视角变化，多尺度对象检测成为研究重点之一。
动态环境：动态环境条件增加了检测任务的复杂性。
领域特定特性：不同场景的领域特性使得模型难以在不同环境中实现鲁棒泛化。

为了应对这些挑战，研究者们采用了多种方法来增强模型的鲁棒性和适应性：

改进训练策略：通过为特定UAVs场景训练专用模型或引入多任务学习框架来提高模型的鲁棒性。
自然语言与视觉结合：利用自然语言和视觉的互补优势，通过VLMs和VFMs的结合来提高检测的准确性和适应性。
零样本学习：VLMs和VFMs的零样本学习能力使其能够有效处理复杂任务并显著提高检测的准确性和鲁棒性。

具体研究中，Li等人结合CLIP和传统目标跟踪模块来实现UAVs的自然语言跟踪任务。Ma等人通过集成Grounding DINO和CLIP来增强UAVs图像中的道路场景检测准确性。

Limberg等人利用YOLO-World和GPT-4V实现UAVs的零样本人体检测和动作识别。Kim等人使用LLaVA-1.5生成天气描述，结合视觉特征和语言提示进行天气感知的对象查询。

语义分割

语义分割是计算机视觉任务之一，UAVs系统在该任务上面临着与对象检测类似的挑战，如对对抗性视觉条件的适应能力和对手动标注数据的依赖。VLMs和VFMs的引入为该领域注入了新的技术动力：

零样本语义分割：VLMs和VFMs能够在无需手动标注的情况下进行零样本语义分割，并通过自然语言交互灵活定义和指导分割任务。
跨域泛化：通过引入Earth-style注入和多任务训练策略，VLMs和VFMs在跨域泛化方面表现出色。

COMRP方法通过结合Grounding DINO和CLIP提取道路相关区域，并使用SAM自动生成分割掩码。CrossEarth方法通过地球风格注入和多任务训练来增强跨域泛化能力。

深度估计

深度估计是UAVs感知系统的核心功能之一，用于生成地形和自然环境的3D几何表示。

近年来，基于神经辐射场（NeRF）和3D高斯散射（3DGS）的方法在该任务上取得了显著进展，但在大规模场景中仍面临挑战。单目深度估计（MDE）逐渐成为更有利的解决方案：

TanDepth框架：Florea等人提出的TanDepth框架结合了Depth Anything模型的相对深度估计和全球数字高程模型（GDEM）数据，生成具有真实世界维度的精确深度图像。
鲁棒性和适应性：实验结果表明，TanDepth在复杂地形和动态飞行环境中表现出色。

视觉描述和VQA

视觉描述和VQA属于计算机视觉和自然语言处理的交叉领域，关注图像和视频内容的语义理解和自然语言表示。

传统方法通常基于深度学习框架，但在复杂场景、开放域问题和细粒度描述生成方面存在局限性。VLMs和VFMs通过联合表示学习显著增强了其理解复杂跨模态信息的能力：

细粒度描述生成：预训练在大规模多模态数据集上的VLMs和VFMs能够生成复杂的细粒度语义描述。
适应开放域任务：这些模型在开放域任务中表现出强大的任务泛化能力。

研究主要集中在两个方向：选择或结合现有的VLMs和VFMs以适应UAVs任务场景，或训练或微调VLMs或VFMs以构建专门针对UAVs垂直应用的模型。

这些研究旨在进一步增强UAVs在复杂环境中的视觉感知、语义推理和任务执行能力，提供对智能和用户友好的机器交互的强大支持。

视觉语言导航

室内环境

室内环境下的UAVs视觉语言导航（VLN）任务主要依赖于视觉输入和自然语言指令的结合。室内导航需要考虑更复杂的3D空间感知和推理。典型的方法包括：

NaVid：利用EVA-CLIP提取视觉特征，并结合Q-Former生成视觉和几何标记。该方法不需要地图、里程计或深度信息，仅通过单目视频流实现实时路径规划和动态调整。
VLN-MP：通过多模态提示增强任务理解，减少自然语言指令的歧义，并支持多样化和高质量的提示设置。该方法通过生成地标相关的图像提示并结合Grounding DINO或GLIP来增强数据多样性。

室外环境

室外环境下的UAVs VLN任务更为复杂，涉及更大的开放空间和动态环境变化。主要方法包括：

AerialVLN：该任务要求UAVs根据自然语言指令和第一人称视觉感知导航到目标位置。AerialVLN通过扩展基线模型，结合GPT-4o进行自然语言指令的分解，并使用Grounding DINO和Tokenize Anything（TAP）提取语义掩码和视觉信息。
CityNav：通过模拟平台提供城市规模的3D环境，结合自然语言指令进行导航。MGP模型使用GPT-3.5解释地标名称、空间关系和任务目标，并结合Grounding DINO和MobileSAM生成高精度的目标区域。
UAV Navigation LLM：通过引入UAV-Need-Help基准任务，构建相关数据集，利用Vicuna-7B和EVA-CLIP提取视觉特征，并采用分层轨迹生成机制进行高效的自然语言导航。

视觉语言跟踪

视觉语言跟踪（VLT）任务旨在通过多模态输入实现连续的目标跟踪，并动态调整飞行路径以应对目标遮挡和环境干扰。主要方法包括：

CloudTrack：采用云-边缘协作架构，结合Grounding DINO和VLMs进行语义解析，实现复杂目标的检测和过滤。
NEUSIS：通过神经符号方法实现自主感知、推理和规划，支持在不确定环境下的目标搜索任务。

目标搜索

目标搜索任务结合了多模态目标感知和智能任务规划，是一种复杂的高层次自主UAVs任务。主要方法包括：

NEUSIS：通过感知、定位和3D推理模块实现目标检测、属性识别和3D投影。
Say-REAPEx：采用GPT-4o-mini作为主要语言模型，测试Llama3、Claude3和Gemini，动态更新任务状态并生成相应的行动计划。

规划

传统方法的挑战

传统的UAVs任务规划算法在复杂动态环境中面临适应性差、协调困难等问题。多UAVs系统的任务规划需要综合考虑每架UAVs的能力、限制和传感模式，同时满足能耗、避障等约束。

然而，现有方法在实时适应环境动态、处理意外情况和未定义故障模式方面存在不足。

LLMs的应用

LLMs通过思维链（Chain of Thought, CoT）框架将复杂任务分解为一系列清晰可执行的子任务，提供了明确的规划路径和逻辑框架。

LLMs的优势在于其上下文学习和少样本学习能力，使其能够灵活适应不同的任务需求，快速生成高效的规划策略。

TypeFly：
- 使用GPT-4解析用户提供的自然语言指令，生成精确的任务规划脚本。
- 引入轻量级任务规划语言（MiniSpec）以提高任务生成效率和响应速度。
- 集成视觉编码模块进行实时环境感知和动态任务调整。
SPINE：
- 设计用于非结构化环境中的任务规划，结合GPT-4和语义拓扑图进行推理和动态规划。
- 使用后退视界框架将复杂任务分解为可执行路径，实现动态调整和高效执行。
LEVIOSA：
- 通过自然语言生成UAVs轨迹，使用Gemini或GPT-4o进行高层次路径规划。
- 结合强化学习和多批评家共识机制优化轨迹，确保安全和能效要求。
TPML 和 REAL：
- 这些方法进一步扩展了LLMs在UAVs任务规划中的应用，强调了自然语言理解和生成在实时决策和复杂环境适应中的重要性。

飞行控制

单UAV飞行控制

单UAV的飞行控制通常依赖于模仿学习和强化学习方法，这些方法在提升控制策略的智能化方面显示出巨大潜力。然而，这些方法通常需要大规模的标注数据，并且在实时性能和安全性方面存在局限。

LLMs的应用：LLMs通过少样本学习能力快速适应新任务需求，通过上下文学习能力动态分析任务环境并生成高层飞行策略。此外，基于语义的自然语言交互显著提高了人机协作的效率，支持任务规划、实时决策和复杂环境适应。
典型研究：Courbon等人提出了基于视觉记忆的导航策略，Vemprala等人开发了PromptCraft平台，结合ChatGPT和模拟环境进行自然语言驱动的飞行控制。

UAVs集群飞行控制

UAVs集群的飞行控制涉及多UAVs之间的协作任务，如编队飞行、任务分配和动态避障。多智能体强化学习和图神经网络（GNNs）提供了强大的建模能力，但在通信延迟、计算复杂性和全局优化能力方面仍面临挑战。

LLMs的应用：LLMs通过自然语言生成时间序列航点，优化路径以满足物理约束和避障要求。Swarm-GPT和FlockGPT等方法结合模型安全运动规划和LLMs，实现UAVs集群的创新控制方案。
典型研究：Jiao等人提出了Swarm-GPT系统，通过重新提示动态修改飞行路径，实现灵活的编队和动态调整。CLIPSwarm探索了自动化和创意的控制方案，提升UAVs集群表演的效率和操作性。

基础平台

高质量的数据资源和完善的处理工作流程对于UAVs系统中LLMs、VLMs和VFM技术的应用至关重要。

这些资源不仅为多模态任务提供了坚实的基础，还支持相关领域的技术创新和方法论进步。具体包括：

DTLLM-VLT：该框架通过多粒度文本生成增强VLT性能。使用SAM提取目标分割掩码，并结合Osprey生成初始视觉描述。LLaMA或Vicuna生成多种粒度的文本注释，覆盖目标类别、颜色、动作和动态变化，从而提高语义支持，增强跟踪准确性和鲁棒性。
CNER-UAV：该数据集用于UAVs递送系统中的细粒度中文命名实体识别。利用GPT-3.5和ChatGLM实现精确的地址信息识别。
GPG2A：该模型通过从地面图像合成航空图像来解决视角转换问题。采用两阶段生成框架，结合BEV布局图和文本描述生成高质量航空图像，优化语义相关性和场景一致性。
AeroVerse：该平台作为航空智能基准套件，集成模拟器、数据集、任务定义和评估方法，推动UAVs技术在感知、认知、规划和决策方面的发展。
其他框架和平台：包括Tang等人开发的UAVs控制安全评估框架，Xu等人设计的紧急通信网络优化框架，以及Pinelli等人提出的UAVs语音控制框架。这些框架结合自然语言处理技术，最大化人机交互的潜力。

UAVs应用场景

监控

监控是UAVs应用的重要领域一个，涉及交通场景、城市环境和监管任务。传统的监控方法主要依赖于机器学习技术，而结合FMs（尤其是LLMs和VLMs）可以显著提升UAVs的环境感知能力和任务执行效率。

车辆检测和分类：UAVs结合FMs可以自动进行车辆检测、分类、行人检测、骑行者检测、速度估计和车辆计数。
智能决策：利用VLMs进行视觉信息获取，结合LLMs进行分析和决策，使UAVs能够自主进行城市巡逻、识别和跟踪任务。
农业应用：在农业应用中，FMs可以帮助农民提高生产力和产量。

物流

在物流领域，UAVs可以实现整个物流链的智能化，从决策到路线规划和最终递送。FMs的应用为解决UAVs物流中的挑战提供了新途径。

优化调度和路线规划：利用FMs的推理和决策能力，优化UAVs的调度和路线规划，提高自动化水平和处理效率。
人机交互：FMs的强理解能力改善了人机交互体验，提供更好的用户体验。
供应链管理：通过区块链技术和自然语言交互，实现安全的UAVs物流系统。

应急响应

UAVs在应急响应和灾害救援任务中具有固有优势，能够快速适应大多数紧急场景。结合FMs可以进一步提高UAVs的实时决策能力和任务执行效率。

快速决策：利用FMs的上下文学习能力，快速生成可操作的应急计划，并实时更新和调整。
复杂数据处理：结合多种传感器进行自主执行复杂任务，提高UAVs的实时决策能力。
通信网络建立：在偏远或受灾地区建立通信网络，支持网络依赖的任务和离线应急响应。

UAVs智能体：基础模型与UAVs系统集成流程

论文提出了整合大型语言模型（LLMs）和视觉语言模型（VLMs）于UAVs系统的一般框架，称为“Agentic UAV”。该框架旨在通过结合FMs来增强UAVs的自主性和智能化水平。

数据模块

数据模块是关于如何准备和适配UAVs相关数据以供基础模型（FMs）进行微调和训练。

数据准备

数据模块的主要目标是创建或适配数据，使其适合于微调和训练专为UAVs任务设计的FMs。UAVs数据通常包括多模态传感器数据和操作员提供的自然语言指令。

多模态传感器数据：包括图像、视频、LiDAR、GPS、IMU等数据，这些数据用于训练UAVs的感知和导航能力。
自然语言指令：操作员提供的指令通常用于指导UAVs的任务执行。这些指令可能需要在数据集中手动标注或通过自动化方法生成。

自然语言指令生成

自然语言指令的生成是数据模块的关键部分。这通常涉及使用图像标注模型或其他工具来创建描述性或基于问题的注释，以便为传感器数据提供上下文。

图像标注模型：利用这些模型生成关于UAVs图像中特定对象或事件的描述性注释。
自动化生成：先进的FMs，如基于GPT的模型，可以自动化生成多样化且上下文丰富的指令，减少对人工努力的依赖。

数据集构建

构建UAVs特定的数据集对于训练和微调模型至关重要。这些数据集通常用于导航、地理定位和遥感等任务。

导航和地理定位：例如，Chu等人开发的基准数据集通过添加文本-图像-边界框注释来提高地理定位的准确性。
遥感应用：UAVs图像用于对象检测、语义分割和环境监测等任务，多模态大模型显著提高了任务效率和准确性。

基础模型模块

基础模型选择

基础模型模块第一步是模型选择，涉及根据任务类型确定使用的语言模型或视觉语言模型。选择合适的模型是确保UAVs系统能够有效处理复杂任务的关键。

语言模型（LLMs）：适用于需要自然语言处理的任务，如任务规划、决策制定和人机交互。典型模型包括ChatGPT和LLAMA。
视觉语言模型（VLMs）：适用于需要处理视觉和语言数据的多模态任务。典型模型包括GPT-4V、LLaVA和Qwen2-VL。
3D模型：适用于在3D环境中操作的UAVs，能够处理点云数据并进行3D规划和任务执行。这些模型通过增强场景几何理解来提高任务执行的灵活性。

模型优化

在选择了基础模型之后，优化过程旨在提高模型在UAVs特定任务中的性能。

指令微调（Instruction Tuning）：通过创建任务特定的模板，将任务背景知识嵌入模型的交互中。这种方法允许模型更好地理解和执行特定任务。
少样本学习（Few-shot Learning）：使用精心策划的示例帮助模型快速掌握任务目标，特别适用于复杂任务。
思维链（Chain of Thought, CoT）：将任务分解为多个子任务，逐步解决以提高推理和执行能力。
低秩适应（Low-Rank Adaptation, LoRA）：通过微调模型的部分参数来优化性能，同时保持计算效率。
基于人类反馈的强化学习（RLHF）：通过结合人类反馈的奖励信号来增强模型的对齐和适应性，使其能够更好地应对动态UAVs挑战。

知识模块

论文介绍了如何通过检索增强生成（Retrieval-Augmented Generation, RAG）技术来增强UAVs系统的决策能力和任务执行效率。

RAG技术概述

RAG技术结合了检索和生成能力，通过从外部知识库中检索相关信息并将其与生成模型的输出融合，从而提高生成结果的质量和领域适应性。RAG的核心功能包括：

检索模块：从外部知识库中获取与输入内容相关的信息。这些信息可以是实时的环境数据、历史记录或其他相关领域的知识。
生成模块：利用检索到的信息作为上下文，生成更准确和可靠的输出。这种方法有助于减少生成过程中的“幻觉”问题，即模型在没有足够背景知识的情况下生成错误或虚构的信息。

在UAVs系统中的应用

在UAVs系统中，RAG技术可以应用于多个方面，以提高系统的智能化和自主性：

实时环境数据访问：RAG可以提供实时的气象条件、地形信息和空中交通更新等环境数据，帮助UAVs进行飞行规划和导航。
高级决策支持：通过集成领域特定的知识库，UAVs可以在动态环境中进行更高级别的任务调整和决策。
人机交互增强：RAG可以检索历史数据或上下文信息，以增强与操作员的交互，提供更清晰的任务指导和系统决策的解释。

优势与应用前景

RAG技术的优势在于其灵活性和实时性，能够根据UAVs的具体任务需求动态调整和优化。这种模块化的架构允许独立更新知识库和生成模型，确保信息的时效性和准确性。

通过结合RAG技术，UAVs系统能够在复杂和动态的环境中实现更智能和自主的操作，为未来的UAVs应用提供了广阔的前景。

工具模块

工具模块包括通用工具和任务特定工具，可以增强UAVs的功能，以应对各种任务需求。

通用工具

通用工具专注于提供多模态功能，以增强UAVs的感知和交互能力。这些工具通常包括视觉语言模型（VLMs）和视觉基础模型（VFMs），它们在处理视觉任务时表现出色。

VLMs：如GPT-4V和LLaVA，这些模型通过结合视觉和语言信息，提供强大的任务执行能力。它们在对象识别、场景理解和任务规划等方面表现出色。
VFMs：如CLIP系列和SAM模型，这些模型在视觉任务中表现出色，特别是在对象检测、语义分割和深度估计等方面。它们能够处理复杂的多模态任务，并提供零样本学习能力。