arXiv-2024 | NavAgent: 基于多尺度城市街道视图融合的无人机视觉语言导航

论文提出了NavAgent，首个由大型视觉语言模型驱动的城市无人机导航模型。通过结合多尺度环境信息，NavAgent在细粒度地标识别和全局环境信息编码方面表现出色。实验结果表明，NavAgent在Touchdown和Map2seq数据集上均优于现有的最先进方法，验证了其在城市无人机VLN任务中的有效性。

Python编程杰哥

1408人浏览 · 2025-01-28 10:45:00

Python编程杰哥 · 2025-01-28 10:45:00 发布

主要贡献

论文提出首个由大型视觉语言模型驱动的城市无人机导航模型（NavAgent），能够在城市环境中通过多尺度环境信息融合实现自主导航。
创建了首个真实城市街景的细粒度地标数据集，NavAgent-Landmark2K数据集包含2000个图像-文本对，涵盖了城市街道场景中的细粒度地标。
利用GLIP模型开发了地标视觉识别器，通过NavAgent-Landmark2K数据集进行训练，显著提高了细粒度地标的识别准确率（提升了9.5%）。
设计了拓扑图编码器，能够整合环境信息和当前视觉信息，增强了无人机在长距离导航中的规划能力。
在Touchdown和Map2seq数据集上，NavAgent在任务完成率、最短路径距离和关键点准确率等指标上均优于现有的强基线模型。

研究背景

研究问题

论文主要解决无人机视觉语言导航（VLN）在城市环境中的应用。现有的VLN方法主要集中在室内地面机器人场景，而在户外城市场景中应用时面临两个主要挑战：

城市环境中物体众多，难以将图像中的细粒度地标与复杂的文本描述匹配；
整体环境信息包含多种模态维度，表示的多样性显著增加了编码过程的复杂性。

研究难点

细粒度地标的匹配：在全景观察图像中识别和匹配细粒度地标（如路边的邮箱、垃圾桶等），这些地标在图像中仅占少数像素，且相关的文本描述通常包含多个修饰词。
多模态信息的编码：环境信息包括视觉数据（如观测图像）、语义信息（如地标类别和位置）和地理数据（如环境地图），这些数据类型具有不同的表示方式，并且在空间和时间上高度异构，增加了编码的复杂性。

NavAgent-Landmark2K数据集

城市VLN环境：实验使用了Chen等人提出的Touchdown环境，该环境基于纽约市曼哈顿地区的Google街景图像，包含29,641张全景图像，通过有向图连接，形成导航路径。
VLN数据集：实验采用了Touchdown和Map2seq两个VLN数据集，这些数据集基于Touchdown环境中的导航路径，包含文本描述的导航指令和全景图像，分别有18,402和15,009个导航实例，分为训练、开发和测试集。

NavAgent-Landmark2K数据集：为了提高模型在短语级别识别地标的能力，作者构建了首个针对真实城市街景的细粒度地标数据集NavAgent-Landmark2K，包含2,000张图像和文本对，用于微调GLIP模型以检测特定领域中的细粒度地标。

研究方法

论文提出NavAgent无人机导航模型，该模型利用大型视觉-语言模型（Vision-Language Model, VLM）来处理多模态输入，并实现自主导航以下是该方法的主要组成部分：

任务定义：在视觉-语言导航（VLN）任务中，智能体从起始节点开始，根据观察到的环境和导航指令文本，计算下一步动作。智能体的状态由其位置和方向表示，动作空间包括前进、左转、右转和停止。
模型架构：NavAgent由四个模块组成：地标文本提取器、地标视觉识别器、拓扑图编码器和大型语言模型（LLM）。地标文本提取器用于从导航指令中提取地标短语；地标视觉识别器基于GLIP模型，用于识别全景图像中的细粒度地标；拓扑图编码器用于编码全局环境信息；LLM则结合全局和局部信息生成导航决策。
地标视觉识别器：该模块通过将观察到的全景图像分割成三张60度视角的图像，并与地标文本进行匹配，实现对细粒度地标的识别。使用交叉注意力机制融合视觉和文本特征，并通过多次融合循环提高匹配精度。

拓扑图编码器：该模块通过图卷积网络（GCN）聚合节点信息，编码场景拓扑图，以捕捉全局环境特征。节点特征通过多层GCN聚合，形成全局节点特征，进而通过全局池化得到拓扑图特征。
推理过程：在推理过程中，NavAgent接收当前节点的导航文本、观察图像和拓扑图，通过地标文本提取器、地标视觉识别器和拓扑图编码器提取相关信息，然后输入LLM生成导航决策。
损失函数：训练过程中使用LLM的损失函数，结合拓扑图的损失函数，使智能体学会合成全局和局部信息进行决策。拓扑图损失通过比较生成的拓扑图与真实拓扑图的邻接矩阵来计算。

实验设计

实验设置

实验分为两个阶段：

第一阶段是对GLIP模型进行微调，使用NavAgent-Landmark2K数据集，并在一个细粒度地标识别任务上评估微调后的模型。
第二阶段是在Touchdown和Map2seq数据集上训练NavAgent模型，并在未见过的场景中评估其性能。使用的模型包括GPT-4作为地标文本提取器，第一阶段微调后的GLIP作为地标视觉识别器，以及LLaMa2-13b模型作为决策的LLM。

评估指标

选择了三个指标来评估VLN任务的性能，任务完成率(TC)、最短路径距离(SPD)和关键点准确率(KPA)：

TC衡量智能体是否在目标位置的连续节点内停止；
SPD测量智能体停止位置与目标位置之间的最短路径长度；
KPA关注智能体在导航过程中的关键点决策能力。

基线模型

基线模型包括Miniature Model (ORAR)、大型语言模型(LLM)和大型视觉-语言模型(VLM)。

对大模型进行了微调以适应无人机的导航任务。

结果与分析

地标文本提取器的性能

通过在Touchdown和Map2seq数据集上手动标注的地标短语，评估了不同预训练LLM在地标短语提取任务上的性能。

结果表明，尽管这些模型没有专门训练，但它们的表现都相当出色，特别是GPT-4在地标短语提取上表现出色。

地标视觉识别器的性能

通过在NavAgent-Landmark2K验证集上微调GLIP模型前后的准确率曲线，展示了微调后的GLIP在细粒度地标识别任务上的卓越性能。

微调后的GLIP在复杂场景中准确识别出占比较小的地标，整体识别准确率提高了9.5%。

定量结果

NavAgent在Touchdown和Map2seq数据集上与基线模型和其他SOTA模型进行了比较，显示出优越的性能。

NavAgent在任务完成率、最短路径距离和关键点准确率等指标上均优于VELMA等模型。

消融研究

通过消融实验验证了NavAgent中每个模块的有效性。移除地标视觉识别器或拓扑图编码器后，模型的性能下降，证明了这些模块在决策过程中的重要性。

可视化结果

通过导航示例的可视化结果，展示了NavAgent在识别地标和做出正确决策方面的能力。

不同阈值对KPA的影响

研究了视觉识别器中输出阈值对关键点准确率(KPA)的影响，发现较低的阈值会导致智能体过早转弯，而较高的阈值则可能导致智能体错过节点。

总结

论文提出了NavAgent，首个由大型视觉语言模型驱动的城市无人机导航模型。

通过结合多尺度环境信息，NavAgent在细粒度地标识别和全局环境信息编码方面表现出色。

实验结果表明，NavAgent在Touchdown和Map2seq数据集上均优于现有的最先进方法，验证了其在城市无人机VLN任务中的有效性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述