当前位置：首页>自动驾驶>阿里高德MindDriver:让自动驾驶AI像人一样“先想后看再行动”

阿里高德MindDriver:让自动驾驶AI像人一样“先想后看再行动”

2026-02-28 01:19:28

🚀 自动驾驶AI的“思维革命”来了！
还在看模型直接“蒙眼”输出轨迹？阿里高德这篇新论文让AI学会了像老司机一样“先想后看再行动”。星球里不仅有这篇论文的深度拆解，更有每日海量AI论文、资讯、代码、招聘速递，帮你快速锁定技术趋势，抢占先机！👇扫码加入「龙哥读论文」知识星球，前沿干货、实用资源一站式拿捏～

龙哥推荐理由：
这篇论文提出了一种非常符合人类直觉的自动驾驶推理范式，将“思维链”从纯文本扩展到了“文本-图像-轨迹”的渐进式多模态过程。它不仅思路清晰，更重要的是配套了自动数据标注和渐进式强化学习两大“工程利器”，让想法真正落地并取得了SOTA效果。对于想了解如何将大模型能力与具体自动驾驶任务深度结合的研究者和工程师来说，极具参考价值。

原论文信息如下：

论文标题:
MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving 发表日期:
2026年02月发表单位:
Amap, Alibaba Group; The Hong Kong University of Science and Technology; The Chinese University of Hong Kong; Xi’an Jiaotong University 原文链接:
https://arxiv.org/pdf/2602.21952v1.pdf 开源代码链接:
https://github.com/hotdogcheesewhite/MindDriver

各位龙迷好，今天咱们聊一个有意思的问题：开车的时候，你在想什么？🤔

“前面车怎么这么慢…哦，红灯了。”——这是语义理解。 “待会它可能会变道，我得靠左一点。”——这是未来想象。 “方向盘向左打5度，轻踩油门。”——这是最终动作。

但现在的端到端自动驾驶AI呢？很多情况下是摄像头数据“直给”，模型直接输出一条轨迹线，中间发生了什么？不知道。这就像让一个没学过交规的人蒙着眼开车，全靠肌肉记忆，指不定在哪个长尾场景（罕见情况）就翻车了。😂

为了提升可解释性和处理复杂场景的能力，研究者们把目光投向了具备“思考”能力的视觉-语言模型（Vision-Language Model, VLM）。VLM看过海量的图文数据，懂“世界常识”。其中，思维链（Chain-of-Thought， CoT）是一种让模型一步步推理的常用策略。

不过，直接把VLM和CoT搬过来用在自动驾驶上，问题就来了。

驾驶AI新思路：让模型像人一样“先想后看再行动”

阿里高德联合几所高校的这篇《MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving》，就精准地抓住了当前自动驾驶AI推理的痛点，并提出了一套非常“拟人化”的解决方案。

它的核心理念很简单：别让模型“一步到位”。而是像老司机一样，先做高层次语义分析（理解场景），再根据理解“脑补”出未来的画面（想象场景），最后从这个想象的画面中“读出”具体的轨迹（执行规划）。

这个过程，论文称之为渐进式多模态推理。它不再是单一模态的“单线程思考”，而是在文本、图像、轨迹之间建立了平滑的过渡桥梁。

破解自动驾驶推理难题：语义与物理的空间鸿沟

要理解MindDriver的巧妙，得先看看它要解决什么问题。论文里这张对比图非常直观：

图1：不同推理方法的对比。文本推理存在空间错位，图像推理缺乏引导，本文提出的渐进式多模态推理实现了平滑对齐的推理。

1. 纯文本CoT的“纸上谈兵”问题：传统的CoT让模型输出一段文本分析，比如“前方有车，减速，准备向右微调”。这分析本身可能很合理，但模型接下来要直接从这段文字跳转到预测一条精确的物理空间轨迹（由一串坐标点组成）。这中间存在巨大的语义空间与物理空间的鸿沟。“向右微调”到底是调多少米？模型很难把握，导致决策不准。

2. 纯图像CoT的“盲目想象”问题：为了解决空间鸿沟，有研究（如FSDrive）让模型直接预测一张未来场景图作为中间推理步骤，再根据图预测轨迹。图像本身包含了语义和物理信息，是个好媒介。但问题是，“凭空”想象一张未来图缺乏明确的目标指引。模型不知道该重点关注图中的哪些元素（是旁边的车，还是远处的红绿灯？），生成的图像可能细节混乱，反而误导了后续的轨迹预测。

所以，MindDriver的解法就呼之欲出了：先用文本CoT做高层规划和聚焦（告诉模型要关注什么），再用这个规划去引导生成一张“目标明确”的未来图，最后从这张清晰的图中解读出轨迹。三步走，环环相扣。

MindDriver核心三阶段：理解、想象、规划

我们来看看MindDriver具体是怎么运作的。下图是它的整体框架：

图2：MindDriver总览。（左）MindDriver框架，执行感知-想象-行动的过程以进行精准轨迹规划。（右）（上）推理数据标注流程。渐进式多模态推理数据通过基于规则和基于模型的过滤以及反馈引导的再生来自动标注。（下）应用渐进式强化微调以增强渐进式推理过程。

第一阶段：语义理解（Think）

模型输入当前6个环视相机图像、一小段历史前视视频（感知动态）、高级驾驶指令（如“左转”）、自车状态（速度、加速度）等。利用大语言模型（LLM）的世界知识，输出一段结构化的文本推理，通常包括：

场景分析：识别道路结构、交通参与者、信号灯状态。

潜在风险评估：判断哪些物体可能构成威胁（例如，右侧自行车有变道意图）。

行为推理与决策：综合以上分析，得出高层行动决策，如“保持车道，略微加速”。

这一步的关键在于，它不是一个笼统的描述，而是一个面向规划的、聚焦的分析，为下一步的“画图”指明了方向。

第二阶段：视觉想象（Dream）

拿到第一阶段的文本推理后，模型的任务是：“根据上述分析和决策，想象一下0.5秒后世界会变成什么样子。” 模型会生成一张未来场景的图像。

因为有了文本的引导，这张生成的图像会更有“目的性”。例如，文本中强调了“注意右侧自行车”，那么生成的图像里，自行车的位姿和运动趋势就会更准确、更突出。这一步成功地在抽象的语义空间和具体的物理图像空间之间架起了桥梁。

第三阶段：物理轨迹规划（Answer）

现在，模型看着自己“想象”出来的未来画面（包含清晰的物理布局和物体动向），去预测一条未来几秒钟的自车行驶轨迹（一系列坐标点）。由于输入是一张图像，模型可以更直观地理解空间关系（比如距离路口还有多远，旁边车道线的位置），从而规划出更精确、更物理可实现的轨迹。

这三个阶段被统一在一个模型里，以自回归的方式依次生成文本Token、图像Token和轨迹Token。其训练目标就是标准的语言建模损失，即最大化整个序列（文本+图像+轨迹）的联合概率：

公式1：语言建模损失函数。L = -∑ log P_θ(y_i | y_<i)，其中 y_i 代表文本或视觉token，θ是LLM参数。

数据与训练双管齐下：自动标注与渐进强化学习

想法很美好，但落地有两大难题：1. 没有现成的“文本-图像-轨迹”三件套训练数据。 2. 传统的监督微调对所有token一视同仁，无法确保三个阶段是严格对齐、逻辑连贯的。

MindDriver为此准备了两大“工程利器”。

利器一：反馈引导的自动数据标注流水线

既然没有数据，那就自己造！论文设计了一个自动化流程，用强大的现成VLM（Qwen2.5-VL-72B）来为原始驾驶视频生成文本CoT。

图3：渐进式多模态推理训练数据的自动标注流水线。Qwen2.5-VL-72B首先标注原始CoT，然后基于格式、决策和逻辑进行过滤。失败的案例使用错误反馈进行重新标注以提高生成质量。

但生成的不一定对，所以流水线设置了三重过滤：

格式过滤：检查CoT是否结构完整（场景、风险、决策都有了没）。

决策过滤：将生成的决策（如“加速”）与从真实轨迹反推出来的决策进行比对，看是否一致。

逻辑过滤：用另一个更强大的纯文本LLM（Qwen3）来判断推理过程是否合乎逻辑。

最妙的是反馈机制：如果某个样本在某一层过滤中失败了，系统不会简单丢弃它，而是会把具体的错误原因（如“格式不全”、“决策应为减速而非加速”、“逻辑矛盾：前方有车却决策加速”）作为反馈，连同原始输入一起，送回给标注模型，让它“重新思考”并生成修正后的CoT。这个过程可以迭代，从而不断提纯数据质量。

通过这个流程得到的优质文本CoT，再与真实的未来场景图像、真实轨迹拼接起来，就构成了完美的“文本-图像-轨迹”三件套训练样本。

利器二：渐进式强化微调

有了高质量数据，先用监督微调让模型学会“三步走”的格式。但为了进一步强化三个阶段之间的对齐和逻辑连贯性，论文提出了一个两阶段的渐进式强化微调方法。

阶段一：奖励“想象”的语义一致性这个阶段不要求生成的未来图像和真实图像像素级一模一样，而是要求语义对齐。关键物体（车、人、灯）是否在正确的位置、有正确的状态？这里使用CLIP模型的图像编码器来计算生成图与真实图的余弦相似度作为奖励。

公式2：阶段一图像奖励。r_Img = (E_CLIP(I_dream) · E_CLIP(I_GT)) / (||E_CLIP(I_dream)|| ||E_CLIP(I_GT)||)。其中 I_GT 为真实图像，I_dream 为模型生成的图像。

阶段二：奖励“规划”的轨迹精确性在第一阶段优化了图像生成的基础上，这一阶段直接奖励最终轨迹的准确性。奖励基于轨迹预测值与真实值之间的L2距离（ADE，平均位移误差）计算，距离越小，奖励越高。

公式3：阶段二轨迹奖励。r_L2 = (λ - ADE) / α，其中 ADE = (1/T) ∑_t=1^T ||ŷ_t - y_t||₂。λ为最大位移误差，α为缩放因子，ŷ为预测轨迹，y为真实轨迹。

这个“渐进式”的设计非常关键，它让模型先专注于学好“根据思考来画画”（文本到图像的过渡），再专注于学好“根据画来走路线”（图像到轨迹的过渡），避免了多个目标同时优化可能带来的冲突和混淆。

实验结果亮眼：开环闭环双优，碰撞率显著降低

这么一套组合拳打下来，效果如何？论文在权威的nuScenes（开环评估）和Bench2Drive（基于CARLA的闭环评估）数据集上进行了全面测试。

开环轨迹规划结果

下表是在nuScenes数据集上的轨迹规划结果，对比了众多SOTA方法，包括传统端到端模型（如UniAD， VAD）和基于VLM的方法（如FSDrive， AutoVLA）。指标是L2位移误差（越低越好）和碰撞率（越低越好）。

表1：在nuScenes数据集上的端到端轨迹规划实验。我们基于ST-P3和UniAD两种不同的计算方法评估了L2和碰撞指标。*表示额外使用了自车状态。†表示使用Qwen2.5-VL-3B官方代码重新实现的结果。

可以看到，MindDriver在几乎所有指标上都达到了最佳或接近最佳的性能。特别是在使用自车状态（更公平的比较）的情况下，它的L2误差和碰撞率都全面优于纯文本CoT方法（AutoVLA）和纯图像CoT方法（FSDrive）。这有力地证明了渐进式多模态推理的有效性。

未来图像生成结果

作为中间步骤，生成的未来图像质量也很高。使用FID（弗雷歇起始距离，越低越好）指标衡量，MindDriver生成的图像清晰度和合理性超过了包括DriveDreamer、GenAD在内的专业未来帧生成模型，达到了SOTA。

表2：在nuScenes数据集上的未来帧生成结果。

闭环驾驶结果

开环测试好比“看图说话”，闭环测试则是真的把模型放进模拟器里“开车”，考验其与环境的实时交互和长期决策能力。在Bench2Drive上，MindDriver也表现优异，综合驾驶分数（DS）和成功率（SR）显著高于许多传统方法，与最强的VLM基线之一AutoVLA相比也各有千秋，并在成功率上展现出优势。

表3：在Bench2Drive（CARLA）基准上的闭环结果。*：额外使用了自车状态。†：未在Bench2Drive训练集上训练。

消融实验与可视化

消融实验（下表）直接证明了渐进式推理（Text -> Image）的优势。它显著优于没有CoT、只有文本CoT、只有图像CoT、以及先图像后文本（Image -> Text）等其他推理模式。

表4：不同CoT类型的消融结果。

下图则直观展示了MindDriver在复杂场景下的规划效果。红色是预测轨迹，绿色是真实轨迹。可以看到，在转弯、避让等场景下，MindDriver的轨迹更接近真实，且更平滑合理。

图4：MindDriver与基线的定性比较。（左）来自开环nuScenes基准的三个场景。红色轨迹是预测，绿色是真实轨迹。（右）在闭环Bench2Drive上随时间戳的性能变化。

展望与挑战：速度、扩展性与自动化标注的隐忧

MindDriver无疑为自动驾驶的“可解释AI”和“类人推理”指明了一条清晰的道路。但作为一项前沿研究，它离实际应用还有一段距离，也面临一些挑战：

1. 推理速度：自回归地依次生成文本、图像、轨迹token，这个过程比直接输出轨迹要慢得多。如何在不损失推理质量的前提下提升效率，是一个关键工程问题。

2. 规模化与泛化：目前实验基于3B参数的VLM。将这套范式扩展到更大规模的模型（如70B），是否会带来质的提升？在不同城市、不同天气条件下的泛化能力如何？有待进一步验证。

3. 自动化标注的“天花板”：数据流水线依赖于现有大模型（Qwen）的能力上限。如果这些模型在某些复杂、长尾场景下的推理本身就有问题或偏见，那么生成的训练数据也会带有同样的缺陷，从而限制最终模型的性能天花板。如何引入更多的人类反馈或更可靠的验证机制，可能是未来的改进方向。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

什么是“思维链（Chain-of-Thought， CoT）”？CoT是一种让AI模型进行推理的策略。简单说，就是不让模型直接给出最终答案，而是要求它像人一样，一步步展示其思考过程。例如，面对问题“停车场有3辆车，又开进来2辆，开走1辆，还剩几辆？”，CoT会输出：“首先，3+2=5。然后，5-1=4。所以，还剩4辆。” 这种方式能提升模型在复杂问题上的推理能力和结果的可解释性。

MindDriver与之前基于VLM的自动驾驶方法最大的不同是什么？最大的不同在于推理的“渐进性”和“多模态对齐”。之前的方法要么只用文本CoT（导致语义与物理空间脱节），要么只用未来图像作为CoT（缺乏规划引导，盲目生成）。MindDriver创新性地将两者结合，并规定了严格的顺序：先文本（Think） -> 再图像（Dream） -> 后轨迹（Answer）。文本为图像生成提供“构图指导”，图像为轨迹规划提供“物理参考”，形成了平滑、对齐的推理链条。

文中的VLM（Vision-Language Model）和LLM（Large Language Model）是什么关系？LLM是大型语言模型，主要处理和理解文本。VLM是视觉-语言模型，可以看作是LLM的“升级版”，它除了能处理文本，还能理解和生成图像，具备了跨模态的能力。MindDriver使用的基座模型Qwen2.5-VL就是一个VLM，它内部包含一个强大的LLM作为其文本理解和生成的核心，并扩展了处理视觉信息的能力。所以，在MindDriver框架中，LLM的能力是VLM完成文本推理部分的基础。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~