【论文阅读笔记】FIMP：多智能体运动预测的未来交互建模

【ICRA 2024】FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction

xyy_zlh

947人浏览 · 2024-11-27 12:47:13

xyy_zlh · 2024-11-27 12:47:13 发布

原文：

[2401.16189] FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction (arxiv.org)https://arxiv.org/abs/2401.16189

前言：第四篇论文阅读笔记来了，这篇论文是与自动驾驶相关的~

一、前言

在自动驾驶场景中，预测多个智能体（如车辆、行人）的运动轨迹是实现安全可靠决策的重要基础。然而，由于动态智能体的意图不明确及其复杂的交互，这一任务面临巨大挑战。

现有方法大致分为历史交互建模和条件未来预测两种，但都存在一些问题：大部分方法基于历史轨迹预测交互，仅能捕捉过去的信息导致交互信息不足，使轨迹预测重叠或不现实；基于高层次未来信息（如轨迹或目标点）的条件预测方法存在依赖性强、效率低的问题，且不能有效处理多智能体的双向交互，不适合实时应用。

于是，作者提出了一种新方法——FIMP，旨在解决上述问题。该方法的有以下特点：

未来交互解码器：通过提取中间特征级别的潜在未来信息，从历史数据中解耦出未来特征。
未来亲和度学习：识别智能体之间的交互关系，使用top-k过滤策略来选择最相关的交互智能体对。
端到端优化：无需依赖高层次未来运动信息，直接建模未来特征间的交互。

二、方法

A. Multi-Head Attention

因为在本论文的方法中，利用了多头注意（MHA）来建模交互和时间依赖性，所以这里先介绍一下多头注意力公式。基于输入变量X和Y的缩放点积注意力定义了一个带有h个头的MHA:

其中， $W_i^Q, W_i^K, W_i^V \in \mathbb{R}^{C \times C/h}$ ， $W^O \in \mathbb{R}^{C \times C}$ 为参数矩阵， $C$ 为特征维数。

多头自注意（MHSA）可以表示为具有两个相同输入的MHA：

B. 本文方法

1. 输入表示

FIMP模型的输入数据包含两部分：智能体运动历史轨迹和附近车道信息。

（1）智能体运动历史轨迹

智能体 i 的历史运动数据表示为 $A_i = \left\{ \Delta p_i^t \right\}_{t = 1}^{T_{\text{history}}}$ ，其中 $\Delta p_{i}^{t}\in\mathbb{R}^{2}$ 是智能体 i 在时刻 t 相对于上一时刻的位置变化， $T_{history}$ 是历史时间步长的个数。

多智能体历史运动数据可以记为 $A_{\text{input}}=\{A_{i}\}_{i = 1}^{N}\in\mathbb{R}^{N\times T_{\text{history}}\times2}$ 。

（2）附近车道信息

从场景车道数据中提取出智能体周围的车道，并将这些车道段 $w$ 转换为智能体 i 中心坐标系下的向量表示为 $\left \{ l_{iw}^{start},l_{iw}^{end}\right \}$ ，其中 $l_{iw}^{start}$ 和 $l_{iw}^{end}$ 分别表示车道段的起始位置和结束位置。

2. 历史特征编码

（1）运动编码器

首先使用多层感知器对每个时间步的运动向量进行编码，得到运动嵌入 $A_{m}$ :

然后，使用时间注意力模块捕捉历史运动序列中的时间依赖关系。该模块中的每一层由层范数（LN）操作、MHSA块、残差连接和前馈网络（MLP）组成。将 $A_{m}$ 作为初始层的输入，从第 $l$ 层编码器输出的 $A_{m}^{l+1}$ 为：

（2）智能体-车道交互

使用MLP在以智能体为中心的坐标中对周围的车道ω进行编码，得到车道嵌入 $L_{iw}$ ：

其中， $attr_{w}$ 表示车道属性（例如转弯方向，车道类型）。然后，通过MHA将车道嵌入 $L_{iw}$ 与智能体的历史特征结合得到车道感知智能体特征 $H_{i}^{L}$ ：

其中， $N_{L}(i)$ 与智能体 i 对应的相邻车道的集合。

（3）智能体-智能体交互

对于每个邻近的智能体 j，其历史特征 $H_{j}$ 被映射到智能体 i 的坐标系中，通过编码得到他们的关系：

然后通过MHA合并相邻智能体的特征，得到智能体交互感知历史特征 ${H_{i}}\widetilde{}$ ：

其中， $N_{A}(i)$ 是相对于智能体 i 的相邻智能体的集合。

3. 未来解码器

旨在从历史信息中提取出潜在未来信息的特征，在预测运动之前实现特征级未来交互建模。包括两个主要组件：用于多模态预测的多头投影（MHP）层和用于时序化的GRU层。

首先通过多头投影层，从历史特征 $H\widetilde{}$ 中提取多个未来模式嵌入 $F_{m}$ ：

然后使用GRU将模式嵌入进行时间化，嵌入到未来的几个时区中，每个时区代表未来一个小的时间段。 $F_{m,z}$ 是第 m 种模式在第 z 个时间区间的未来特征。

4. 未来交互建模

（1）智能体-车道交互

与历史轨迹交互类似，参考公式7-8。

（2）通过亲和度学习的智能体-智能体交互

在计算亲和度之前，需要将所有智能体的未来特征转换到相同的特征空间中。这里我们将它们投影到自动驾驶汽车（AV）的坐标中作为参考特征空间。与历史交互建模中的公式9相似，智能体 i 在AV α坐标下的预测未来特征为：

接着，计算未来特征之间的亲和度（即特征间的距离）。对于每个目标智能体，只选择top-k高亲和度的智能体作为交互对，通过MHA得到交互感知的未来特征 $\widetilde{F_{i}^{m,z}}$ ：

5. 多模态运动预测

为了处理未来不确定性，预测头的MLP将每种模式下的未来特征的位置、尺度的拉普拉斯分布形式输出为目标智能体 i 在未来时刻 t 的最终位置信息预测。

使用回归损失 $L_{reg}$ 和分类损失 $L_{cls}$ 对模型进行端到端训练优化，确保模型能够准确预测。

对于回归损失：

其中， $g_{i}^{t}$ 为智能体 i 在未来时间步长 t 的真实位置，P(·|·)为拉普拉斯的概率密度函数。

对于分类损失：采用真实位移和预测之间的平滑L1损失。

最后，总损失是回归损失和分类损失的总和。

三、实验

训练设备

两个Titan RTX GPU。

数据集

Argoverse motion forecasting dataset。

度量指标

minFDE、minADE。

实验结果

（1）定量结果

（2）定性结果

在未来交互建模至关重要的不同场景中对模型进行定性比较。

（3）消融实验结果

四、总结

作者提出了一种新的未来多智能体运动预测交互模型。模型FIMP通过采用未来解码器，从观察到的数据中提取隐含的未来信息，以端到端方式捕获潜在的交互。实验表明，通过学习未来亲和关系并使用top-k过滤策略，它可以有效地识别相互作用的智能体对及其未来的关系，在Argoverse运动预测数据集上实现了卓越的性能和实时推理。