
【论文阅读笔记】FIMP:多智能体运动预测的未来交互建模
【ICRA 2024】FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction
原文:
前言:第四篇论文阅读笔记来了,这篇论文是与自动驾驶相关的~
一、前言
在自动驾驶场景中,预测多个智能体(如车辆、行人)的运动轨迹是实现安全可靠决策的重要基础。然而,由于动态智能体的意图不明确及其复杂的交互,这一任务面临巨大挑战。
现有方法大致分为历史交互建模和条件未来预测两种,但都存在一些问题:大部分方法基于历史轨迹预测交互,仅能捕捉过去的信息导致交互信息不足,使轨迹预测重叠或不现实;基于高层次未来信息(如轨迹或目标点)的条件预测方法存在依赖性强、效率低的问题,且不能有效处理多智能体的双向交互,不适合实时应用。
于是,作者提出了一种新方法——FIMP,旨在解决上述问题。该方法的有以下特点:
- 未来交互解码器:通过提取中间特征级别的潜在未来信息,从历史数据中解耦出未来特征。
- 未来亲和度学习:识别智能体之间的交互关系,使用top-k过滤策略来选择最相关的交互智能体对。
- 端到端优化:无需依赖高层次未来运动信息,直接建模未来特征间的交互。
二、方法
A. Multi-Head Attention
因为在本论文的方法中,利用了多头注意(MHA)来建模交互和时间依赖性,所以这里先介绍一下多头注意力公式。基于输入变量X和Y的缩放点积注意力定义了一个带有h个头的MHA:
其中,,
为参数矩阵,
为特征维数。
多头自注意(MHSA)可以表示为具有两个相同输入的MHA:
B. 本文方法
1. 输入表示
FIMP模型的输入数据包含两部分:智能体运动历史轨迹和附近车道信息。
(1)智能体运动历史轨迹
智能体 i 的历史运动数据表示为,其中
是智能体 i 在时刻 t 相对于上一时刻的位置变化,
是历史时间步长的个数。
多智能体历史运动数据可以记为。
(2)附近车道信息
从场景车道数据中提取出智能体周围的车道,并将这些车道段转换为智能体 i 中心坐标系下的向量表示为
,其中
和
分别表示车道段的起始位置和结束位置。
2. 历史特征编码
(1)运动编码器
首先使用多层感知器对每个时间步的运动向量进行编码,得到运动嵌入:
然后,使用时间注意力模块捕捉历史运动序列中的时间依赖关系。该模块中的每一层由层范数(LN)操作、MHSA块、残差连接和前馈网络(MLP)组成。将作为初始层的输入,从第
层编码器输出的
为:
(2)智能体-车道交互
使用MLP在以智能体为中心的坐标中对周围的车道ω进行编码,得到车道嵌入:
其中,表示车道属性(例如转弯方向,车道类型)。然后,通过MHA将车道嵌入
与智能体的历史特征结合得到车道感知智能体特征
:
其中,与智能体 i 对应的相邻车道的集合。
(3)智能体-智能体交互
对于每个邻近的智能体 j,其历史特征被映射到智能体 i 的坐标系中,通过编码得到他们的关系:
然后通过MHA合并相邻智能体的特征,得到智能体交互感知历史特征:
其中,是相对于智能体 i 的相邻智能体的集合。
3. 未来解码器
旨在从历史信息中提取出潜在未来信息的特征,在预测运动之前实现特征级未来交互建模。包括两个主要组件:用于多模态预测的多头投影(MHP)层和用于时序化的GRU层。
首先通过多头投影层,从历史特征 中提取多个未来模式嵌入
:
然后使用GRU将模式嵌入进行时间化,嵌入到未来的几个时区中,每个时区代表未来一个小的时间段。是第 m 种模式在第 z 个时间区间的未来特征。
4. 未来交互建模
(1)智能体-车道交互
与历史轨迹交互类似,参考公式7-8。
(2)通过亲和度学习的智能体-智能体交互
在计算亲和度之前,需要将所有智能体的未来特征转换到相同的特征空间中。这里我们将它们投影到自动驾驶汽车(AV)的坐标中作为参考特征空间。与历史交互建模中的公式9相似,智能体 i 在AV α坐标下的预测未来特征为:
接着,计算未来特征之间的亲和度(即特征间的距离)。对于每个目标智能体,只选择top-k高亲和度的智能体作为交互对,通过MHA得到交互感知的未来特征:
5. 多模态运动预测
为了处理未来不确定性,预测头的MLP将每种模式下的未来特征的位置、尺度的拉普拉斯分布形式输出为目标智能体 i 在未来时刻 t 的最终位置信息预测。
使用回归损失和分类损失
对模型进行端到端训练优化,确保模型能够准确预测。
对于回归损失:
其中,为智能体 i 在未来时间步长 t 的真实位置,P(·|·)为拉普拉斯的概率密度函数。
对于分类损失:采用真实位移和预测之间的平滑L1损失。
最后,总损失是回归损失和分类损失的总和。
三、实验
训练设备
两个Titan RTX GPU。
数据集
Argoverse motion forecasting dataset。
度量指标
minFDE、minADE。
实验结果
(1)定量结果
(2)定性结果
在未来交互建模至关重要的不同场景中对模型进行定性比较。
(3)消融实验结果
四、总结
作者提出了一种新的未来多智能体运动预测交互模型。模型FIMP通过采用未来解码器,从观察到的数据中提取隐含的未来信息,以端到端方式捕获潜在的交互。实验表明,通过学习未来亲和关系并使用top-k过滤策略,它可以有效地识别相互作用的智能体对及其未来的关系,在Argoverse运动预测数据集上实现了卓越的性能和实时推理。
更多推荐
所有评论(0)