清华周杰&鲁继文团队 | 开源自动驾驶大模型！

程序员笑武

2436人浏览 · 2024-12-17 19:51:54

程序员笑武 · 2024-12-17 19:51:54 发布

今天给大家带来清华大学周杰&鲁继文团队最新的大模型论文《Doe-1: Closed-Loop Autonomous Driving with Large World Model》，论文已开源

论文链接：https://arxiv.org/pdf/2412.09627

1.摘要

端到端自动驾驶因其从大量数据中学习的潜力而受到越来越多的关注。然而现有的大多数方法仍然是开环的，存在可扩展性弱、缺乏高阶交互和决策效率低等问题。

在本文中，探索了自动驾驶的闭环框架，并提出了统一感知、预测和规划的大型驾驶世界模式（Doe-1）。将自动驾驶表述为下一个标记生成问题，并使用多模态标记来完成不同的任务。

具体来说，本文使用自由格式文本（即场景描述）进行感知，并使用图像标记在 RGB 空间中直接生成未来预测。在规划方面，采用位置感知标记化器，有效地将动作编码为离散标记。

本文训练多模态转换器，以端到端统一的方式自动生成感知、预测和规划标记。

在广泛使用的 nuScenes 数据集上进行的实验证明了 Doe-1 在视觉问题解答、动作条件视频生成和运动规划等各种任务中的有效性。

2.背景

近年来，GPT系列的出现促进了大型模型在多种功能上的快速发展，包括语言建模、视觉理解及决策制定等。

为了构建适用于自动驾驶的大模型，一些方法直接应用了大型语言模型（LLMs）或视觉-语言模型（VLMs）用于运动规划或场景问答任务。这些方法通常将输入与文本对齐，并输出规划结果的语言描述。

然而，LLMs已知存在幻觉问题，这阻碍了自动驾驶的可解释性和安全性。为了避免这个问题，其他方法遵循感知、预测和规划的传统管道来处理自动驾驶，并探索一个可扩展的端到端模型以共同完成这些任务。

尽管有前景，但大多数现有方法仍然是开环的，并且存在几个问题：

可扩展性弱：它们使用手动设计的场景表示，无法为下游任务提供全面的信息。
缺乏高阶交互：它们在不考虑计划的自轨迹的情况下预测未来的场景。
决策效率低下：它们通常会规划多步行动，但在实际操作中仅使用第一步进行执行。

3.贡献

为了解决这些问题，提出了Doe-1，用于统一的感知、预测和规划，而无需中间的潜在场景表示。

本文将自动驾驶视为一个场景演化的问题，并用观察、描述和动作标记来表示每个场景。
将传统的感知、规划和条件视频生成以及预测公式化为多模态标记之间的转换，即从观察到描述、从描述到动作，以及从动作再到观察。
采用生成性的自回归世界模型通过下一个标记预测来模拟这种演变。

具体来说，本文专注于以视觉为中心的自动驾驶，并采用RGB图像作为观察。使用图像向量量化变分自动编码器对图像进行标记化。使用自由形式的文本作为场景描述，并同样为模型提供问答对。

实验表明，Doe-1在包括视觉问答、动作条件视频生成和运动规划在内的各种任务中都是有效的。

4.技术架构

Doe-1旨在提供一种统一的框架来实现感知、预测和规划，而不需要使用中间的潜在场景表示，从而形成一个更加综合且可扩展的自动驾驶模型。

1、闭环自动驾驶

自动驾驶的目标是根据当前和过去的场景观察来规划车辆未来的动作。传统方法通常依赖于预先训练好的感知模型，然后通过一系列独立模块进行预测和规划。

然而，这种方法存在信息损失的问题，并且难以捕捉到高阶交互，导致决策效率低下。

为了改进这一点，Doe-1采用了一种闭环的方法，将感知、预测和规划视为一个连续的过程，即从观察到描述，再从描述到行动，最后由行动反馈到新的观察。

2 模型架构

Doe-1的核心思想是将自动驾驶任务建模为场景演化的序列问题。每个场景用观测、描述和动作标记表示，这些标记之间的转换构成了整个模型的工作流程。具体来说：

观测：采用RGB图像作为输入。

描述：利用自由格式的文本对场景进行描述。

动作：基于场景描述，直接在图像空间中预测未来动作。

这种设计减少了信息损失，扩大了模型容量，并使得模型能够更准确地理解和预测复杂场景。

3 应用

作为一个统一的多模态世界模型，Doe-1可以接受来自多种传感器的数据输入，并自动预测下一个模态，这使其可以通过简单的提示改变来适应不同的任务需求。例如：

视觉问答：给定观测结果，模型生成精确的场景描述，并完成基于此描述的互动式问答任务。

动作条件视频生成：模拟驾驶场景下执行特定动作后的变化，仅需提供初始帧图像，模型即可迭代生成后续帧。

端到端运动规划：基于历史观测和动作，模型生成未来的轨迹。

5.实验结果

数据集

实验基于nuScenes数据集进行，该数据集包含了1,000个驾驶序列，涵盖了白天/夜晚和晴天/阴天/雨天等不同场景。

每个视频片段由20秒内以20Hz频率拍摄的400帧组成，并被下采样到2Hz以获得关键帧，同时附带了场景描述、3D物体边界框和语义地图的标注。

视觉问答

Doe-1在视觉问答任务中表现出色，尽管它仅使用前置摄像头作为输入，而其他方法如OmniDrive则利用了周围摄像头的数据。

Doe-1能够准确地描述场景并回答关于输入图像的问题，显示出具有竞争力的结果，在视觉字幕和反事实推理任务上尤为突出。

动作条件视频生成

在动作条件视频生成方面，Doe-1可以依据给定的动作条件生成高质量的视频，这些视频与3D结构一致。

相较于其他方法，Doe-1在FID（Fréchet Inception Distance）指标上表现良好，表明其生成的视频质量高且符合预期动作条件。

闭环自动驾驶

通过模拟感知、规划和预测的过程，Doe-1能够在没有微调的情况下正确生成场景描述、回答关于场景的问题、规划自我车辆轨迹以及预测未来的观测结果。这证明了Doe-1在闭环自动驾驶中的有效性。

端到端运动规划

在端到端运动规划方面，Doe-1的表现虽然不是最优，但仍然展示了有竞争力的成绩，尤其是在仅依赖于问题-回答对作为辅助监督的情况下。

值得注意的是，更多的监督信号通常会带来更好的性能，但这需要付出昂贵注释的成本。

此外，Doe-1仅使用前置摄像头作为输入，而其他基于视觉的方法则使用环绕摄像头。

即便如此，Doe-1依然计划出了未来轨迹，并保持了满意的碰撞率，特别是在1秒内的小碰撞率对于实际闭环场景尤为重要。

不同规划策略的效果

Doe-1在生成当前动作之前利用感知到的描述，并遮蔽生成动作之前的帧以避免误差累积。这种设计有效地减少了文本模态约束对规划性能的影响，并防止了显著的误差累积。

结论

在本文中，提出了一个用于闭环自动驾驶的Doe-1。虽然现有的端到端自动驾驶方法显示出很强的规划性能，但它们仍然是开环的，并且由于手工制作的场景表征而遭受信息损失。

本文采用下一个标记预测公式来解决这一问题，并通过多模态标记之间的转换来建立感知、预测和规划模型。

本文在广泛使用的 nuScenes 数据集上进行了大量实验，证明了 Doe-1 在视觉问题解答、动作条件视频生成和端到端运动规划方面的有效性。

局限性。由于使用多视角输入的效率较低，Doe-1 只将前视角图像作为输入。不过，环视信息对安全自动驾驶至关重要，也是一个有趣的未来方向。

项目地址：https://wzzheng.net/Doe

源码链接：https:/github.com/wzzheng/LDM

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

MonkeyCode 上手教程：从注册到跑通第一个 AI 开发任务，全程不到 10 分钟

AI Agent技术社区

增强“Dynamic Workflow + 收敛 Loops + 角色分离 Session + Gatekeeper“在三方库鸿蒙化迁移中的实践

让 Claude 写一个函数很容易。让 Claude 在持续数小时、跨越多个文件、涉及数百个函数、按照不同角色跑完一套工程——这是另一个量级的挑战。基于 HarmonyOS ArkTS 三方库迁移的工程实践，识别出了在长文本长工程中的四个根本性痛点——目标漂移、子 Agent 中立性丧失、记忆脆断、注意力熵增——并提出了一套在 Dynamic Workflow 基础上，基于"收敛 Loop + 角

AI Agent技术社区

VibeCoding了两年分享一下我对于Vibe的感想

我是从 2024 年读高二的时候了解到 Vibe Coding 的（当时大家还没有叫它 Vibe Coding ），当时 DeepSeek 刚出 R1 ，除了 OpenAI 的 GPT-o1 之外，大家还没来得及用上思维链，也没有那么强的性能，参数量最大的模型的话好像是 R1 的 671B。而有些神人就不一样了，在圈子里展示着他们那强劲的音道，嗓门又大音高又高，把正常交流的声音全盖住，炫耀自己又烧