原文:

[2401.16189] FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction (arxiv.org)icon-default.png?t=O83Ahttps://arxiv.org/abs/2401.16189

  前言:第四篇论文阅读笔记来了,这篇论文是与自动驾驶相关的~


一、前言

        在自动驾驶场景中,预测多个智能体(如车辆、行人)的运动轨迹是实现安全可靠决策的重要基础。然而,由于动态智能体的意图不明确及其复杂的交互,这一任务面临巨大挑战。

        现有方法大致分为历史交互建模条件未来预测两种,但都存在一些问题:大部分方法基于历史轨迹预测交互,仅能捕捉过去的信息导致交互信息不足,使轨迹预测重叠或不现实;基于高层次未来信息(如轨迹或目标点)的条件预测方法存在依赖性强、效率低的问题,且不能有效处理多智能体的双向交互,不适合实时应用。

        于是,作者提出了一种新方法——FIMP,旨在解决上述问题。该方法的有以下特点:

  • 未来交互解码器:通过提取中间特征级别的潜在未来信息,从历史数据中解耦出未来特征。
  • 未来亲和度学习:识别智能体之间的交互关系,使用top-k过滤策略来选择最相关的交互智能体对。
  • 端到端优化:无需依赖高层次未来运动信息,直接建模未来特征间的交互。


二、方法

A.  Multi-Head Attention

        因为在本论文的方法中,利用了多头注意(MHA)来建模交互和时间依赖性,所以这里先介绍一下多头注意力公式。基于输入变量X和Y的缩放点积注意力定义了一个带有h个头的MHA:

其中,W_i^Q, W_i^K, W_i^V \in \mathbb{R}^{C \times C/h}W^O \in \mathbb{R}^{C \times C}为参数矩阵,C为特征维数。

        多头自注意(MHSA)可以表示为具有两个相同输入的MHA:

B. 本文方法

1. 输入表示

        FIMP模型的输入数据包含两部分:智能体运动历史轨迹和附近车道信息。

(1)智能体运动历史轨迹

        智能体 i 的历史运动数据表示为A_i = \left\{ \Delta p_i^t \right\}_{t = 1}^{T_{\text{history}}},其中 \Delta p_{i}^{t}\in\mathbb{R}^{2}是智能体 i 在时刻 t 相对于上一时刻的位置变化,T_{history}是历史时间步长的个数。

        多智能体历史运动数据可以记为A_{\text{input}}=\{A_{i}\}_{i = 1}^{N}\in\mathbb{R}^{N\times T_{\text{history}}\times2}

(2)附近车道信息

        从场景车道数据中提取出智能体周围的车道,并将这些车道段w转换为智能体 i 中心坐标系下的向量表示为\left \{ l_{iw}^{start},l_{iw}^{end}\right \},其中l_{iw}^{start}l_{iw}^{end}分别表示车道段的起始位置和结束位置。

2. 历史特征编码

(1)运动编码器

        首先使用多层感知器对每个时间步的运动向量进行编码,得到运动嵌入A_{m}:

         然后,使用时间注意力模块捕捉历史运动序列中的时间依赖关系。该模块中的每一层由层范数(LN)操作、MHSA块、残差连接和前馈网络(MLP)组成。将A_{m}作为初始层的输入,从第l层编码器输出的A_{m}^{l+1}为:

(2)智能体-车道交互

        使用MLP在以智能体为中心的坐标中对周围的车道ω进行编码,得到车道嵌入L_{iw}

其中,attr_{w}表示车道属性(例如转弯方向,车道类型)。然后,通过MHA将车道嵌入L_{iw}与智能体的历史特征结合得到车道感知智能体特征H_{i}^{L}

其中,N_{L}(i)与智能体 i 对应的相邻车道的集合。

(3)智能体-智能体交互

        对于每个邻近的智能体 j,其历史特征H_{j}被映射到智能体 i 的坐标系中,通过编码得到他们的关系:

         然后通过MHA合并相邻智能体的特征,得到智能体交互感知历史特征{H_{i}}\widetilde{}

其中,N_{A}(i)是相对于智能体 i 的相邻智能体的集合。

3. 未来解码器

       旨在从历史信息中提取出潜在未来信息的特征,在预测运动之前实现特征级未来交互建模。包括两个主要组件:用于多模态预测的多头投影(MHP)层和用于时序化的GRU层。

        首先通过多头投影层,从历史特征 H\widetilde{}中提取多个未来模式嵌入F_{m}

         然后使用GRU将模式嵌入进行时间化,嵌入到未来的几个时区中,每个时区代表未来一个小的时间段。F_{m,z}是第 m 种模式在第 z 个时间区间的未来特征。

4. 未来交互建模

(1)智能体-车道交互

        与历史轨迹交互类似,参考公式7-8。

(2)通过亲和度学习的智能体-智能体交互

        在计算亲和度之前,需要将所有智能体的未来特征转换到相同的特征空间中。这里我们将它们投影到自动驾驶汽车(AV)的坐标中作为参考特征空间。与历史交互建模中的公式9相似,智能体 i 在AV α坐标下的预测未来特征为:

        接着,计算未来特征之间的亲和度(即特征间的距离)。对于每个目标智能体,只选择top-k高亲和度的智能体作为交互对,通过MHA得到交互感知的未来特征\widetilde{F_{i}^{m,z}}

 

5. 多模态运动预测

        为了处理未来不确定性,预测头的MLP将每种模式下的未来特征的位置、尺度的拉普拉斯分布形式输出为目标智能体 i 在未来时刻 t 的最终位置信息预测。

        使用回归损失L_{reg}和分类损失L_{cls}对模型进行端到端训练优化,确保模型能够准确预测。

        对于回归损失:

其中,g_{i}^{t}为智能体 i 在未来时间步长 t 的真实位置,P(·|·)为拉普拉斯的概率密度函数。 

        对于分类损失:采用真实位移和预测之间的平滑L1损失。

        最后,总损失是回归损失和分类损失的总和。


三、实验

训练设备

        两个Titan RTX GPU。

数据集

         Argoverse motion forecasting dataset。

度量指标

        minFDE、minADE。

实验结果

(1)定量结果

(2)定性结果

        在未来交互建模至关重要的不同场景中对模型进行定性比较。

(3)消融实验结果

 


四、总结

        作者提出了一种新的未来多智能体运动预测交互模型。模型FIMP通过采用未来解码器,从观察到的数据中提取隐含的未来信息,以端到端方式捕获潜在的交互。实验表明,通过学习未来亲和关系并使用top-k过滤策略,它可以有效地识别相互作用的智能体对及其未来的关系,在Argoverse运动预测数据集上实现了卓越的性能和实时推理。

Logo

更多推荐