
NeurIPS2024 SMART:可扩展的多智能体实时运动生成
本文提出的SMART模型通过自回归生成模型,利用向量化的地图和代理轨迹数据,解决了自动驾驶运动生成中的可扩展性和零样本泛化问题。与其他方法相比,SMART模型的优势在于其强大的交互和地图理解能力,能够在复杂场景中生成更安全和合理的驾驶行为。这些任务通过自回归的方式进行训练,使模型能够在每一步预测下一个令牌,从而有效地捕捉交通场景中的时间和空间关系,提高生成任务的多样性和合理性。这些离散化方法通过提
研究背景
- 研究问题:这篇文章要解决的问题是如何在数据集规模有限和领域差距较大的情况下,进行自动驾驶运动生成。现有的方法在预测任务中表现良好,但在强调驾驶行为安全性和合理性的运动生成任务中表现不佳。
- 研究难点:该问题的研究难点包括:无法表示不同运动之间的未来交互、解码器生成的多模态运动数量有限、模型在不同数据集上的泛化能力差。
- 相关工作:该问题的研究相关工作有:使用编码器网络表示驾驶场景和解码器网络生成多模态运动的方法、自回归大规模语言模型(LLMs)在驾驶运动生成中的应用、扩散模型和连续分布回归模型等。
研究方法
这篇论文提出了SMART(Scalable Multi-agent Real-time Motion Generation via Next-token Prediction)模型,用于解决自动驾驶运动生成问题。具体来说,
- Tokenization:首先,对代理轨迹和道路矢量数据进行离散化处理。代理轨迹被分割成固定时间间隔的轨迹集,并使用k-磁盘算法进行聚类,形成代理运动令牌词汇。道路矢量数据也被分割成不超过5米长的片段,并进行匹配,形成道路矢量令牌。
- Model Architecture:SMART模型采用解码器优先的Transformer架构。RoadNet模块用于编码道路矢量令牌,捕捉道路矢量的空间关系。MotionNet模块用于解码代理运动令牌,捕捉代理运动的时间序列关系和代理-地图、代理-代理之间的交互关系。
Spatial-temporal next token prediction:在训练阶段,SMART通过两个next token prediction任务来学习交通场景中的时间和空间关系。RoadNet模块进行道路矢量next token prediction,MotionNet模块进行运动next token prediction。
实验设计
- 数据收集:实验使用了多个数据集,包括NuPlan、Waymo Open Motion Dataset (WOMD) 和自主采集的数据集。总共收集了超过10亿个运动令牌。
- 实验设置:在WOMD Sim Agents Challenge (WOSAC) 上进行了广泛的实验,评估了SMART模型的可扩展性和零样本泛化能力。实验中使用了8百万参数(8M)的SMART模型,并在不同的数据集规模上进行了训练和测试。
- 参数配置:SMART模型的Hyperparameters包括:RoadNet的自注意力层数为1,MotionNet的时间注意力层数为3,代理-代理注意力层数为1,代理-地图注意力层数为1,注意力头数为8,代理令牌嵌入维度为32,道路矢量令牌嵌入维度为128。
结果与分析
- 运动生成任务比较:SMART模型在WOMD 2023和2024 Sim Agents基准测试中均取得了最佳的真实性元指标,并且在代理交互和可驾驶地图指标上也显著优于现有方法。
- 效率比较:SMART模型的单帧推理时间在5到20毫秒之间,平均在10毫秒以下,显著满足了自动驾驶实时互动模拟的需求。
- 泛化能力:SMART模型在零样本泛化实验中表现出色,尽管在不同数据集上的代理位置和航向校准精度存在差异,但在代理交互和可驾驶地图指标上仍表现出良好的泛化能力。
- 可扩展性:通过不同模型参数的训练,验证了SMART模型的强大可扩展性。模型规模从1M增加到96M时,交互指标和基于地图的指标显著提高,但运动指标变化较小。
总体结论
本文提出的SMART模型通过自回归生成模型,利用向量化的地图和代理轨迹数据,解决了自动驾驶运动生成中的可扩展性和零样本泛化问题。SMART模型在生成Sim Agents挑战赛中取得了最先进的性能,并在实时互动自动驾驶模拟中满足了实时性要求。未来的工作将重点验证SMART模型在规划和预测任务中的应用能力。
论文评价
优点与创新
- 提出了一个新的运动生成框架:SMART模型结合了向量地图和代理轨迹数据的离散序列标记,并利用解码器仅Transformer架构进行下一个标记预测任务训练。这种方法为自动驾驶运动生成算法的设计提供了新的见解。
- 零样本泛化能力:在驾驶运动生成领域,SMART模型首次关注模型在不同数据集上的零样本泛化能力。尽管NuPlan数据集和WOMD数据集在地图区域上没有重叠,但仅使用NuPlan数据集训练的SMART模型在WOMD测试数据集上表现良好。
- 领先的性能:SMART在生成Sim Agents挑战赛中大多数指标上达到了最先进的水平,在Waymo开放运动数据集(WOMD)排行榜上排名第一,并且推理速度显著。
- 可扩展性验证:SMART收集了超过10亿个运动标记,从多个数据集中验证了模型的可扩展性。这些结果表明SMART初步模拟了两个重要属性:可扩展性和零样本泛化,并初步满足了大规模实时仿真应用的需求。
- 代码发布:所有代码已发布,以促进自动驾驶领域运动生成模型的进一步探索和发展。
不足与反思
- 数据集规模限制:尽管验证了模型的可扩展性,但由于数据集规模的限制,模型的最大规模被限制在1亿参数以内。
- 高级标记器或采样技术的迭代:当前工作主要关注学习范式的设计,保持了相对简单的离散标记词汇设计。相信通过迭代SMART模型,使用高级标记器或采样技术可以进一步提高性能。
- 多模态任务的迁移:作为运动生成模型,SMART迁移到规划和预测任务的能力仍需验证,这是未来的首要工作。
关键问题及回答
问题1:SMART模型在处理代理轨迹和道路矢量数据的离散化过程中,具体采用了哪些方法?这些方法如何提高模型的性能?
- 代理轨迹离散化:将代理轨迹分割成固定时间间隔(0.5秒)的轨迹集,然后使用k-磁盘算法进行聚类,形成代理运动令牌词汇。这种方法使得模型能够在训练过程中有效地处理轨迹的分布变化和累积误差,从而提高生成任务的鲁棒性。
- 道路矢量离散化:将道路矢量分割成不超过5米长的片段,并进行匹配,形成道路矢量令牌。这种方法增强了模型对道路网络的空间结构的理解,有助于捕捉道路矢量的拓扑信息和连续性。
这些离散化方法通过提供细粒度的输入特征,增强了模型对交通场景的理解能力,特别是在处理复杂场景中的代理运动和地图交互时表现出色。
问题2:SMART模型在训练过程中采用了哪些next token prediction任务?这些任务如何帮助模型学习交通场景中的时间和空间关系?
- 道路矢量next token prediction:该任务旨在让RoadNet模块学习道路矢量输入的空间结构。由于道路矢量形成图而不是序列,因此通过提取道路的原始拓扑信息,并基于前驱-后继连接建模道路矢量令牌的顺序关系,来预测后续的道路矢量令牌。
- 运动next token prediction:该任务旨在让MotionNet模块不仅学习代理运动的时间依赖性,还学习代理-地图和代理-代理之间的空间依赖性。模型通过最小化真实令牌标签分布和预测分布之间的交叉熵损失来训练,
这些任务通过自回归的方式进行训练,使模型能够在每一步预测下一个令牌,从而有效地捕捉交通场景中的时间和空间关系,提高生成任务的多样性和合理性。
问题3:SMART模型在WOMD Sim Agents Challenge (WOSAC) 上的表现如何?与其他方法相比有哪些优势?
- 性能表现:SMART模型在WOMD 2023和2024 Sim Agents基准测试中均取得了最佳的真实性元指标,并且在代理交互和可驾驶地图指标上也显著优于现有方法。特别是在角加速度、最近物体距离、碰撞避免和离路指标上表现突出,显示出其在复杂驾驶场景中的有效性。
- 效率:SMART模型的单帧推理时间在5到20毫秒之间,平均在10毫秒以下,显著满足了自动驾驶实时互动模拟的需求。
- 泛化能力:SMART模型在零样本泛化实验中表现出色,尽管在不同数据集上的代理位置和航向校准精度存在差异,但在代理交互和可驾驶地图指标上仍表现出良好的泛化能力。
与其他方法相比,SMART模型的优势在于其强大的交互和地图理解能力,能够在复杂场景中生成更安全和合理的驾驶行为。此外,其高效的推理时间也使其适用于实时互动模拟。
更多推荐
所有评论(0)