论文阅读：Dynamic and Static Context-aware LSTM for Multi-agent Motion Prediction

Dynamic and Static Context-aware LSTM for Multi-agent Motion Prediction摘要1 引言2 相关工作3 Method4Experiments5Discussion6Conclusions用于多主体运动预测的动态和静态上下文感知LSTM作者：Chaofan TaoQinhong Jiang论文地址：发表时间：备注：论文解析代码开源代码

Sun_ZD

1612人浏览 · 2021-03-01 16:08:31

Sun_ZD · 2021-03-01 16:08:31 发布

Dynamic and Static Context-aware LSTM for Multi-agent Motion Prediction

摘要
1 引言
2 相关工作
3 Method
4 Experiments
5 Discussion
6 Conclusions

用于多主体运动预测的动态和静态上下文感知LSTM

作者：Chaofan Tao Qinhong Jiang
论文地址：
发表时间：
备注：
论文解析
代码开源
代码解析

摘要

多主体运动预测具有挑战性，因为它旨在在复杂的场景中同时预测多个主体（例如行人）的未来轨迹。

现有的工作通过学习以一群行人的位置为代表的社交空间互动，而忽略了他们的时间连贯性（即不同长轨迹之间的依赖性），或者通过理解复杂的场景布局（例如场景分割）来确保安全，从而解决了这一挑战。
但是，与以前的工作隔离空间交互，时间连贯性和场景布局的工作不同，本文设计了一种新的机制，即动态和静态上下文感知运动预测器（DSCMP），将这些丰富的信息集成到长短期信息中。

长短时记忆（LSTM）它具有三个吸引人的好处。
（1）DSCMP通过学习代理的空间位置和时间连贯性以及理解上下文场景布局来对代理之间的动态交互进行建模。
（2）与以前的LSTM模型不同，该模型通过逐帧传播隐藏的特征来预测运动，从而限制了学习长轨迹之间的相关性的能力，我们精心设计了DSCMP中的可区分队列机制，该机制能够明确地记忆和学习之间的相关性。长轨迹。
（3）DSCMP通过推断潜在变量来捕获场景的上下文，这使多模式预测具有有意义的语义场景布局。

大量的实验表明，DSCMP的性能大大优于最新方法，例如在ETH-UCY和SDD数据集上的相对改进分别为9.05％和7.62％。

1 引言

对于许多现实世界的应用（例如无人驾驶汽车，交通监控和自动移动机器人）而言，多主体运动预测是一项重要任务。
然而，这具有挑战性，因为它旨在在复杂的场景中同时预见多个行人（例如行人）的未来轨迹。

解决这一挑战的现有工作[1,5,29,2,21,3,35,15]通常可以分为两类。
在第一类[1,5,29,2]中，先前的工作通过学习社交空间互动来预测运动，社交互动以行人的位置表示。然而，这些方法通常忽略了行人的不同长轨迹之间的依赖性。
在第二类[21,35,15,3]中，现有技术结合了场景理解来规范预测的轨迹，例如复杂场景布局的视觉特征。

与现有的模型代理人交互或场景布局建模工作不同，我们在LSTM中精心设计了新颖的机制来对行人在空间和时间维度上的动态交互进行建模，并将语义场景布局建模为潜在的概率变量以约束行为。这些设计原则使我们的模型能够预测每个特工在时间和空间上与其他特工相关的多个轨迹。
我们看到，如图1（c）所示，该方法在许多基准测试中均优于同类方法。

在这里插入图片描述

（c）比较各种数据集上的相对平均距离误差（ADE）。

我们将提议的方法命名为动态和静态上下文感知运动预测器（DSCMP），它具有LSTM的编码器-解码器结构，该结构已经精心设计了解决多主体运动预测的机制。 DSCMP具有以前工作没有的三个吸引人的好处

第一个好处，与现有方法[1,5,29,21,35]不同，现有方法使用递归神经网络（RNN）通过逐帧传递消息来学习运动，DSCMP在LSTM中加入了队列机制以显式传播图例的隐藏特征。多个帧，与现有技术相比，能够更清晰地捕获行人之间的长轨迹。

具体来说，以前的方法[4,22]中的vanilla LSTM尝试学习每个代理i的逐帧预测变量，
表示为 $m_{t+1}^{i}=p\left(m_{t}^{i}, h_{t-1}^{i}\right)$ ，
其中p（· ）是LSTM的预测函数，
mi表示第t帧的当前运动状态（即x，y位置），
而t-1是前一帧的隐藏特征。
逐帧模型会阻碍其捕获行人长轨迹之间的依存关系的能力。

social-aware LSTM模型的最新方法[1,5,27]通过使用 $m_{t+1}^{i}=p\left(m_{t}^{i}, \bigcup_{i}^{N(i)} h_{t-1}^{i}\right)$ 修改了上述vanilla LSTM，其中第（t − 1）帧的第i个行人的空间邻居的隐藏特征（用N（i）表示）。但是，以上方法不足以考虑代理之间的交互。

例如，如图1（a）所示，智能体2正朝着智能体1和智能体3前进。为了避免冲突，智能体2倾向于通过预测智能体1和3的意图来调整其未来轨迹。最近的运动历史，而不仅仅是前一帧的状态。
在这里插入图片描述
与上述现有方法不同，在DSCMP中精心设计了LSTM，以学习行人的空间依赖性和时间相干性。
LSTM包含两个模块，包括个人上下文模块（ICM）和社交意识上下文模块（SCM）。
如图1（b）所示，我们的模型通过学习预测变量 $m_{t+1}^{i}=p\left(m_{t}^{i}, \bigcup_{i}^{N(i)} Q_{t}^{i}\right)$ 来充分理解跨主体的时空情境，其中Qi表示一个集合的特征不仅跨越特定框架上的代理，而且跨越不同代理的多个连续框架。

在这里插入图片描述

（b）比较不同的方法

更具体地说，DSCMP的ICM将当前运动状态的特征和相应的特征队列传递到LSTM单元中。多个忘记门控制队列中帧的信息流。在每次迭代中，我们通过添加最新帧的特征并弹出最早的特征来更新队列。此外，DSCMP的SCM通过使用相邻代理的队列来优化更新后的队列。由于这些队列在过去的多个帧中保留了特定于代理的运动线索，因此我们能够了解队列聚合的长期时空交互。

第二个好处，我们观察到在真实情况下智能体的未来移动具有不确定性，因为可能会出现多个轨迹。例如，代理在决定他/她可能的未来路径时自然会考虑他/她周围的场景布局。尤其是，代理人可以在十字路口向左或向右转，而他/她在街角附近的选择有限。但是，最近的方法要么忽略了场景布局的指导，要么为每个代理生成了不同的预测，甚至完全忽略了场景信息。相反，DSCMP通过使用 $m_{t+1}^{i}=p\left(m_{t}^{i}, \bigcup_{i}^{N(i)} Q_{t}^{i}, I\right)$ 将场景信息纳入各种预测的学习中，其中I表示场景分割后的语义场景特征。
在实践中，将此语义场景特征建模为概率分布的潜在变量，以预测每个代理的多个未来轨迹。

第三个好处是，为了了解DSCMP的独特性，我们提出了一种新的评估指标，称为时间相关系数（TCC），可以全面评估运动模式的时间相关性，弥合常用指标（例如平均距离误差）的差距。（ADE）和最终距离误差（FDE）不足以评估时间运动相关性。在数据集ETH [17] -UCY [13]，SDD [19]上进行的广泛实验表明，DSCMP在上述所有指标上都大大超越了最新方法，例如，指标的相对改进幅度为9.05％和7.62％ ADE与最新方法STGAT [7]相比。

总结上述好处，这项工作有三个主要贡献。
（1）我们提出了一种新颖的未来运动预测器，称为DSCMP，它能够显式地对不同代理之间的时空交互进行建模，并为每个代理生成对未来路径的多个概率预测。
（2）我们仔细设计了DSCMP中的LSTM模块以实现上述目的，在该模块中，可以对所有模块进行端到端培训，包括个人上下文模块（ICM），社交意识上下文模块（SCM）和潜在的场景信息模块。
（3）在ETH [17]，UCY [13]和SDD [19]数据集上进行的广泛实验表明，DSCMP在ADE和FDE等多种评估指标以及新指标Temporal方面的表现大大优于同行我们提出的相关系数（TCC），可以更好地检查运动预测的时间相关性。

2 相关工作

Motion Prediction(运动预测)
诸如基于物理的方法[17,30,18]和基于规划的方法[31,25,12,9]之类的运动预测[20]的早期方法通常分别受到手工制作的运动学方程和奖励函数的限制。随着递归神经网络的发展，最近已经研究了基于模式的方法[1,5,27,11,33,11,8,29,16,10]。尽管大多数模型都考虑了世界坐标中的主体，但一些工作[16,10]则探索了以自我中心视觉的轨迹预测。 [1]中介绍了结合LSTM和社交互动的基于模式的开创性工作。 [5]的作者提出了一个对抗框架，以顺序生成预测。使用社交池来了解代理之间的空间依赖性。时空图[27,14,8]被用来对完整图上的关系进行建模，而这些方法遭受动态边的隐式建模或具有O（N2）复杂性的可伸缩性差。 STGAT [7]是与我们工作最相关的方法。它考虑了多个帧中运动的时间相关性。与STGAT从整个观察过程中推导单个相关表示不同，我们明确地跟踪观察过程中每次迭代的时间相关性。我们还考虑了场景上下文。

Contextual Understanding（语境理解）
人类能够通过理解上下文来进行推理和推理。事实证明，丰富的上下文信息在顺序数据建模（例如视频，语言，语音）中非常有价值。注意机制[26,32]在每个时间步上集中于视觉或文本输入的重要部分方面已显示出巨大的成功。非本地操作[28]作为通用块，通过计算远程上下文中的成对关系直接捕获依赖关系。在运动预测领域，图注意力[7,11]为邻近的行人分配了不同的重要性，以使其参与社交意识的交互。 [35,21]的作者在LSTM中编码场景上下文的视觉特征，以预测物理上可行的轨迹。

Multimodal Predictions（多峰预测）
多模态是运动预测的重要特征，它暗示了未来轨迹的多种可能选择。为了对这种不确定性建模，需要使用该模型来生成各种预测。一种常见的方法[5,35,21]是将从预定义的高斯分布N（0,1）中采样的潜在变量与隐藏特征融合在一起。但是，预定义的潜在变量缺少上下文推理。在本文中，潜在变量可从场景上下文中学习，这使我们的模型能够生成具有有意义语义的多峰预测。

3 Method

Overview.
在这里插入图片描述我们的DSCMP框架的工作流程如图2所示。
对于观察期间的每个迭代，我们将带有建议队列的当前运动状态发送到编码器，然后通过ICM更新队列，然后通过SCM对其进行优化。
编码器中的最后一个隐藏特征与场景引导的潜在变量连接在一起。后来，融合的特征被传递到LSTM解码器以获得预测的运动。

在这里插入图片描述

我们的框架（DSCMP）概述。
给定一系列观察到的运动，我们构造特定于代理的队列，以在队列长度内存储先前帧的LSTM特征。例如，队列长度设置为3。
（a）对于观察期间的每次迭代，当前运动状态和队列均通过ICM进行编码。
（b）通过添加最新功能并弹出最早的功能来更新队列。在SCM中，通过考虑邻居队列中要素的成对关系来自适应地优化队列。
（c）将静态上下文的语义图与观察到的运动结合在一起，以生成可学习的潜在变量z。
（d）我们将编码器中的最后一个隐藏特征与潜在变量连接起来，以通过LSTM解码器预测运动。

3.1 The Function of Queues（队列的功能）

通过队列的设置，临时存储当前帧t的先前运动上下文和内存上下文。
具体来说，我们为每个代理 i 构造了一个隐藏特征队列 $Q_{h_{t}}^{i}=\left[h_{t-q}^{i}, \cdots, h_{t-1}^{i}\right] \in R^{1 * q * h}$ 和单元队列 $Q_{c_{t}}^{i}=\left[c_{t-q}^{i}, \cdots, c_{t-1}^{i}\right] \in$ . LSTM特征的大小表示为h。队列长度q描述了显式传播功能的时间段。对于每个代理，我们用零初始化隐藏功能队列和单元队列。

3.2 Individual Context Module(个人上下文模块)
基于上述队列，我们首先从各个层面捕获轨迹的时间相关性。为了在一次迭代中处理多个输入，我们采用了树状的LSTM单元[24]。
时间桶（time bucket） $（ t - q ， \cdot \cdot \cdot ， t - 1 ）$ 中的历史状态被视为当前状态t的子级。迭代后，通过在帧t处添加特征并在帧t-q处弹出特征来更新队列。
我们首先对队列中的隐藏特征求平均，从中获得整体表示 $\tilde{h}_{t-1}^{i}=\sum_{l=1}^{q} h_{t-l}^{i}$ 过去的帧。如图3（a）所示的ICM计算图，其传播公式如下：

在这里插入图片描述

其中
$σ$ 是 sigmoid 型函数，
$\odot$ 是逐元素乘法。
从等式1，我们可以观察到多个先前的帧将消息传递到当前单元格。这些帧对当前状态的贡献由多个遗忘门 $f_{t}^{i l}, l \in[1, q]$ 控制。在q = 1的情况下，ICM退化为普通LSTM单元，该单元仅在一次迭代时才考虑先前的单个功能。

实际上，我们为每个代理分配固定长度的队列。我们指出，在某些情况下这是不合适的。例如，某些特工的动作可能不稳定，与过去的状态在时间上不一致。但是，自适应遗忘门可以控制来自过去帧的信息量。因此，可以在传播过程中过滤无关的运动。

3.3 Social-aware Context Module(社交意识上下文模块)
社交互动是动态环境的重要组成部分。由于邻居队列的聚合 $\in R^{N(i) * q * h}$ 存储了跨智能体的周围历史信息，因此我们的模型可以通过一次操作学习时空相关性。在此，N（i）表示代理i（包括自己）的邻居数。在SCM中，我们计算邻居中队列中元素的成对关系。可以将经过精炼的队列视为邻居队列中的加权总和。选择非局部块[28]进行关系推断，因为它不仅捕获了遥远的关系，而且还保持了输入的形状。隐藏特征队列 $Q_{h_{t+1}}^{i}=\left[h_{t-q+1}^{i}, \cdots, h_{t}^{i}\right]$ 的改进。计算为：

在这里插入图片描述
其中
$\mathcal{R}\left(h_{t-l}^{i}, h_{t-l}^{j}\right)$ 是一个标量，反映了特征 $h_{t-l}^{i} \text { and } h_{t-l}^{j}$ 之间的关系。

并且分量 $\mathcal{G}\left(h_{t-l}^{j}\right)$ 指的是在帧t-l处邻居代理j的变换表示。

N（i）表示代理i的邻居。

$\mathcal{Z}_{t-l}^{i}=\sum_{j=1}^{N(i)} \mathcal{R}\left(h_{t-l}^{i}, h_{t-l}^{j}\right)$ 是归一化因子。

函数 $\mathcal{R}(\cdot, \cdot) \text { and } \mathcal{G}(\cdot)$ 的参数在代理之间共享。

单元队列保持不变，因为在此步骤中我们专注于运动交互而不是内存。

3.4 Semantic Guidance from Scene Context(场景语境中的语义指导)
场景信息是一种有价值的静态上下文，它提供了代理周围布局的语义。
在实践中，我们通过离线预训练的PSPNet [36,34]从调整后的256×256场景图像I中提取语义图。
之后，我们将语义图发送到卷积层（Conv），然后通过完全连接（FC）层将它们与观察到的轨迹合并。潜在变量z是通过对平均μ和方差σ进行重新参数化技巧而获得的，如下所示：

在这里插入图片描述
其中
⊕表示逐元素加法。
潜在变量z通过进入LSTM解码器并在观察期间出现最后隐藏的特征来启用多模式预测。
在预测阶段，在解码器中顺序生成预测运动 $\hat{M}_{t_{o b s}: t_{o b s}+p r e d}^{i}$

3.5 Model Training
为了鼓励时间相邻特征的一致性，我们利用由[23]定义的正则化损失Lcinspired，其定义如下：

在这里插入图片描述
其中
cos是余弦相似度，
margin是超参数。
成对特征 $\left(h_{t_{1}}^{i}, h_{t_{2}}^{i}\right)$ 是成批随机抽样的。
Lc最大化队列长度内的特征相似度（其中帧之间可能高度相关），同时惩罚队列长度内的特征相似度（其中帧可能属于不同的运动模式）。
总损失函数结合正则项Lcand品种损失（第二项），后接[5]，如下所示：

在这里插入图片描述
其中
λ是一个权衡参数
品种损失计算出m个预测中的最佳值与基本事实之间的L2距离，这鼓励覆盖符合过去轨迹的输出空间。

4 Experiments

4.1 Datasets and Evaluation Metrics
我们在三个数据集（ETH [17]，UCY [13]，SDD [19]）上评估了我们的方法。 ETH包含两个名为ETH和HOTEL的子集。 UCY由三个子集组成，分别称为UNIV，ZARA1和ZARA2。在5个场景中，人群中共有1536条行人轨迹。我们观察了3.2s（8帧），并同时预测了每个行人接下来的4.8s（12帧）的运动。对于数据分割和评估，我们遵循[5]中的留一法。 SDD数据集包含大量复杂场景。它包含60条鸟瞰视频，视频具有相应的轨迹，涉及多种媒介（行人，自行车骑士等）。观察时间为3.2s，预测时间为1s至4s。我们将数据集分为16,000个视频剪辑，并遵循5倍交叉验证设置。

常用的基于欧几里德的度量标准（例如ADE和FDE）忽略了运动模式的时间相关性。图3（b）中示出了一个示例性例子。为了弥补此漏洞，我们引入了一种新的度量标准，该度量标准无需假设轨迹的时间分布即时间相关系数（TCC）。 TCC定义为：
在这里插入图片描述
4.2 Implementation Details

我们将输入运动状态预处理为相对位置。隐藏特征的大小和潜在变量的大小分别设置为32和16。场景的卷积部分是三层，内核大小分别为10、10、1。随后的FC层是具有S型激活的16×16变换。分别将ETH数据集，ZARA数据集和其他数据集的队列长度设置为4、2、3。对于损失函数，正则化器Lcare的λ和裕度分别为0.1和0.5。品种损失中的m设置为20。批次大小为64，使用Adam优化器的学习率为0.001。

4.3 Standard Evaluations

我们选择两种基本方法线性模型和LSTM [6]，并选择几种代表性的最新技术进行比较。 S-LSTM [1]和SGAN [5]是著名的确定性方法和随机方法，它们分别将深度学习与仅空间交互相结合。像Sophie [21]，MATF [35]和STGAT [7]这样的最新方法都结合了来自静态场景或时空依赖性的信息。为了验证个人上下文模块和社会意识上下文模块的有效性，我们采用了两种方法，OursIC和OursIC-SC。根据[5,21,35,7]，从N（0,1）中采样了变体OursIC和OursIC-SC中使用的潜在变量，并通过采样20次以选择最佳预测来报告结果。 “ Rel。增益”显示了与最新方法STGAT（蓝色标记）相比，我们完整模型的相对ADE增益（红色标记）。

如表1和表2所示，线性方法和LSTM的性能很差，因为它们太浅而无法考虑周围的环境。

在这里插入图片描述

与具有最新方法的变体OursIC相比，OursIC已经展示了跨不同数据集的优势。这表明我们在多个帧之间进行显式的时间依赖性提取对于提高性能非常有价值。我们的IC-SC通过改进社交意识功能进行了一些改进。 OursIC-SC与我们的完整模型之间的性能差距从经验上表明，静态场景上下文的指导对于多模态预测很有用。

5 Discussion

5.1 Memory Cell Visualization(内存单元可视化)
如图4（a）所示，我们通过细胞激活比较了LSTM和我们方法的存储容量。
在这里插入图片描述

红色表示正电池状态，蓝色表示负电池状态。vanilla LSTM中的大多数细胞均为阴性。相反，我们的模型会在整个预测过程中跟踪上下文。尽管我们模型的存储容量会随着时间的推移而逐渐减少（从深红色到浅红色），但它仍然保持活动状态。这些结果激励我们，LSTM所使用的逐帧观察很容易被发现。相反，对多个帧中的依存关系进行显式建模可以改善对长期运动的捕获。

5.2 The Capture of Motion Pattern(运动模式的捕捉)
图4（b）总结了SDD数据集中不同方法的TCC定量结果。通过学习动态代理的时空上下文，我们的方法优于最新方法（SLSTM，SGAN，STGAT），尤其是在长期预测方面（4s）。随着预测持续时间的推移，不同方法的TCC持续下降。这是合理的，因为更难于学习较长轨迹的时间相关性。

在这里插入图片描述
5.3 Exploration on the Queue Length(队列长度探索)

5.4 Social Behaviors Understanding(社会行为理解)
在实际应用中，必须在多代理系统中处理社交交互。因此，我们验证了我们的方法是否能够很好地感知人群中的社会行为。

如图5所示，我们选择了三种涉及社交行为的常见场景，即“平行行走”，“转向”和“面对面”。从地面实况和各种预测之间的比较，我们可以观察到，我们的方法所预测的轨迹与地面实况是接近的。此外，我们的预测是可靠的，在整个预测期间内不会发生碰撞或大的偏差。这表明我们的模型预测了每个特工在时间和空间上与其他特工相关的多个轨迹。

在这里插入图片描述

图5.在不同情况下我们的模型，SGAN和STGAT之间的比较。这些可视化结果表明：1）：我们的模型能够生成令人信服的轨迹，这些轨迹比其他最新方法更接近于地面真实情况。 2）：我们的模型很好地捕捉了行人的社会互动。我们的预测可避免在整个预测期间发生冲突。

5.5 Analysis of Multimodal Predictions（多封预测分析）
为了评估多模式预测的质量，我们将模型预测的各种轨迹可视化。图6的第一行报告了一个感兴趣的行人的多峰预测。
在这里插入图片描述

图6.四个场景中的多模式预测的可视化。
第一行：我们为一个感兴趣的代理绘制了多种可能的未来轨迹。
底行：我们通过核密度估计来可视化目的地的分布热图（位于最后一帧）。预测的目的地和地面真实情况分别显示为黑点和红点。
分布热图表明，我们的模型不仅提供了有意义的语义预测，而且不确定性较低。

可学习的潜在变量z受益于静态场景上下文的语义提示，而不是使用预定义的高斯噪声。
我们的预测（黄色线）建议了接近地面真相（红色线）的合理轨迹，而不是随机产生广泛的候选人。
例如，在“十字路口”和“交叉路口”的情况下，目标代理有可能在观察终点向左或向右转。我们的模型提供了符合常识的预测。
在“ Sideway”和“ Corner”场景中，由于场景布局的限制，目标代理对未来轨迹的选择有限。在这种情况下，我们所有的预测都朝着合理的方向发展。因此，我们的模型结合场景信息具有良好的可解释性。

在底行中，我们使用分布热图调查了预测的不确定性。在这里，我们通过核密度估计来估计预测目标（黑点）的分布，然后将真实目标（红点）应用于此分布。位置越亮，该点属于分布的可能性就越大。我们的可视化结果显示，真正的目的地通常出现在明亮的位置。这表明我们的预测具有较低的不确定性。

6 Conclusions

在本文中，我们提出了一种新颖的方法DSCMP来突出上下文理解的三个核心要素，即空间交互，时间连贯性和场景布局，以进行多主体运动预测。我们设计了一种嵌入LSTM的可区分队列机制，以捕获跨代理的空间交互以及长期运动中的时间连贯性。并且引入了一个可学习的潜在变量来学习场景布局的语义。为了理解DSCMP的独特性，我们还提出了一种度量时间相关系数（TCC）来评估预测运动的时间相关性。在三个基准数据集上进行的大量实验证明了我们提出的方法的有效性。对于将来对自治应用程序的研究，这项工作为多帧时空依存关系的建模以及场景布局的语义提示提供了启示。