【Motion Forecasting】【摘要阅读】HiVT: Hierarchical Vector Transformer for Multi-Agent Motion Prediction

对《HiVT: Hierarchical Vector Transformer for Multi-Agent Motion Prediction》进行阅读、翻译以及学习记录。

YGGP

1046人浏览 · 2024-08-27 15:51:01

YGGP · 2024-08-27 15:51:01 发布

HiVT: Hierarchical Vector Transformer for Multi-Agent Motion Prediction

HiVT是自动驾驶运动预测任务当中最经典的一项工作之一，发布于2022年的CVPR，作者Zikang Zhou来自于香港城市大学。作者还于2023年在CVPR进一步发表了QCNet。

Abstract

准确地对自动驾驶车辆周围的交通参与者进行未来轨迹的预测对于自动驾驶车辆的安全行驶来说非常重要。

近期，基于向量表示的方法（vectorized approaches）【以2020年的VectorNet、LaneGCN以及2021年的TPCN为代表】由于具有捕捉交通场景当中复杂交互的能力而成为了运动预测任务上的主流设置。

然而，现有的方法忽略了自动驾驶运动预测任务当中的对称性，使得现有模型的计算开销过大，以至于这些方法难以在不牺牲预测精度的前提下满足真实场景中多代理运动预测的实时需求。

为了解决上述问题，本文提出了一种层级的向量Transformer（Hierarchical Vector Transformer，HiVT），用于快速且准确的多代理运动预测。

通过将问题分解为局部上下文特征提取（local encoder）和全局特征交互建模（global interactor），本文方法可以高效地对场景中大量的代理进行建模。同时，本文方法提出了一种具有平移不变性的场景表示（translation-invariant scene representation）【通过使用差分向量表示来实现，向量本身具有平移不变性】以及具有旋转不变性的空间学习模块（rotation-invariant spatial learning modules）【通过在对向量进行特征提取之前以当前时刻代理的运动方向为参考方向，对当前代理及其固定范围内的邻域代理的向量表示进行旋转来完成】，使得模型可以从场景当中提取到对几何变换具有鲁棒性的特征，并使得模型可以在单次前向传播中完成多个代理的运动预测【但是需要注意的是，HiVT仍然是Agent-Centric方法，只不过它没有显式地以每一个代理在当前时刻的位置和行驶方向作为整个场景的全局参考坐标系对整个场景进行标准化，并重复多次来完成多代理运动预测，而是显式地将这一部分蕴藏在了local encoder当中，通过向量表示以及选取某个代理作为局部区域的中心对区域中的向量进行旋转来完成】。
在这里插入图片描述

HiVT在Argoverse Motion Forecasting v1.1数据集上取得了当年SOTA水准的结果，并且HiVT的模型参数量更少，并且可以快速地完成多个代理的运动预测。

【精简版：HiVT实际上解决的问题是自动驾驶运动预测任务的视角不变性，这一点与我之前分享过的HDGT、GoRela以及MTR++非常类似。视角不变性包括平移不变性和旋转不变性，平移不变性指的是在全局坐标系统下，代理从 $(0, 0)$ 移动到 $(0, 5)$ 等价于从 $(100, 100)$ 移动到 $(100, 105)$ ；而旋转不变性指的是在当前时刻，即使代理的行驶方向在全局坐标系统下是不同的，在历史观测以及上下文环境相同的前提下模型应该做出相同的轨迹预测结果。HiVT使用差分向量来对代理的历史运动信息进行表示，即当前时刻的位置 $-$ 前一个时刻的位置，并使用所有代理在当前时刻的行驶方向作为参考方向，在进行局部特征提取时，以某个代理为例，以它作为局部区域的中心，检索固定邻域半径内的其它代理，对其它代理和道路的向量表示使用中央代理的当前时刻行驶方向进行标准化。】