5分钟了解Awesome-LLM4AD:自动驾驶与大语言模型的完美结合
Awesome-LLM4AD(Large Language Models for Autonomous Driving)是一个精心策划的资源列表,专注于收集和整理将大语言模型(LLM)应用于自动驾驶领域的研究论文和相关资源。该项目由SJTU-ReThinklab维护,持续跟踪LLM4AD(包括VLM4AD和VLA4AD)的前沿发展,为自动驾驶领域的研究者和开发者提供全面的参考资料。## 为什么
5分钟了解Awesome-LLM4AD:自动驾驶与大语言模型的完美结合
Awesome-LLM4AD(Large Language Models for Autonomous Driving)是一个精心策划的资源列表,专注于收集和整理将大语言模型(LLM)应用于自动驾驶领域的研究论文和相关资源。该项目由SJTU-ReThinklab维护,持续跟踪LLM4AD(包括VLM4AD和VLA4AD)的前沿发展,为自动驾驶领域的研究者和开发者提供全面的参考资料。
为什么需要LLM4AD?
传统的自动驾驶系统在处理复杂场景和长尾问题时面临诸多挑战。模拟环境与真实世界的差异(sim2real gap)以及离线数据难以覆盖所有真实场景的局限性,导致现有系统难以达到人类驾驶员的驾驶水平。
LLM增强自动驾驶能力示意图:绿色箭头表示当前自动驾驶范式的局限性,蓝色箭头显示LLM如何提升自动驾驶能力
大语言模型凭借其强大的常识推理、多模态理解和知识整合能力,为解决这些挑战提供了新的思路。LLM可以帮助自动驾驶系统更好地理解复杂交通场景、处理罕见情况,并实现更类人的决策过程。
LLM4AD的核心应用 pipeline
LLM4AD将大语言模型集成到自动驾驶的各个环节,形成一个完整的应用 pipeline:
LLM4AD pipeline:展示了大语言模型如何融入自动驾驶的感知、规划和决策过程
输入层(Inputs)
- 传感器输入:包括LiDAR、摄像头、GPS和车辆动力学数据
- Token输入:包括自然语言指令和提示
模态处理层(Modal)
- 视觉网络:处理图像和视觉数据
- 大语言模型:如GPT系列、Llama系列等基础模型
- 多模态模型:如RT-2、LLaVA、PaLM-E等,实现跨模态理解
任务层(Tasks)
- 规划(Planning):行为预测、路径规划和意图理解
- 感知(Perception):目标检测、语义分割、跟踪和轨迹预测
- 问答(QA):场景理解和知识查询
- 生成(Generation):世界模型构建和扩散模型应用
如何开始使用Awesome-LLM4AD?
要开始探索Awesome-LLM4AD资源,只需通过以下命令克隆仓库:
git clone https://gitcode.com/gh_mirrors/aw/Awesome-LLM4AD
仓库中包含大量最新的研究论文,涵盖规划、感知、问答和生成等多个方向。每篇论文都提供了详细信息,包括作者、发表日期、任务类型、数据集和项目链接等。
关键研究方向
Awesome-LLM4AD涵盖了多个重要的研究方向,包括:
- 端到端驾驶:如AppleVLM和FROST-Drive等模型,直接从多模态输入生成驾驶动作
- 轨迹规划:如SteerVLA和ColaVLA等方法,利用LLM的推理能力优化轨迹生成
- 世界模型:如UniDrive-WM和DriveLaW,构建能够预测未来场景演变的模型
- 安全与评估:如DSBench和DrivingGen等基准,评估LLM在安全关键场景中的表现
引用与贡献
如果您发现Awesome-LLM4AD有帮助,可以引用他们的综述论文:
@misc{yang2023survey,
title={LLM4Drive: A Survey of Large Language Models for Autonomous Driving},
author={Zhenjie Yang and Xiaosong Jia and Hongyang Li and Junchi Yan},
year={2023},
eprint={2311.01043},
archivePrefix={arXiv},
primaryClass={cs.AI}
}
项目欢迎社区贡献,如果您发现相关资料有帮助,可以联系维护者或提交PR。
通过Awesome-LLM4AD,研究者和开发者可以快速了解大语言模型在自动驾驶领域的最新进展,为构建更安全、更智能的自动驾驶系统提供有力支持。无论您是刚开始探索这个领域,还是寻找特定问题的解决方案,这个资源库都能为您提供有价值的参考。
更多推荐


所有评论(0)