当前位置：首页>自动驾驶>DriveMA:为什么自动驾驶不再迷信长推理?

DriveMA:为什么自动驾驶不再迷信长推理?

2026-06-18 09:19:31

点击卡片关注我们，获取具身智能一手资讯

尽管自动驾驶系统在结构化道路上的表现日益成熟，但将视觉-语言-行动模型（Driving VLA）部署到真实开放道路时，一个关键挑战浮现：模型的自然语言决策与最终轨迹规划往往不一致——模型可能生成“加速直行”的语言描述，却输出近乎静止的轨迹。这种 语言-行动鸿沟（Language-Action Gap）严重制约了VLA的实用性。来自上海期智研究院、清华大学和同济大学的研究团队没有追求更复杂的语言交互，而是回归根本：如果让中间语言变得可验证，会发生什么？他们的答案是 DriveMA——一个建立在可验证“元动作”之上的 Driving VLA 框架。

论文标题DriveMA: Driving Vision-Language-Action Models with verifiable Meta-Actions
项目地址未找到
论文地址https://arxiv.org/pdf/2605.31271

当模型"说一套做一套"

Driving VLA 的核心理念很吸引人：把自然语言引入感知到行动的管线中，用语义知识来提升下游规划的质量。

理想情况下，语言不只是描述场景的"字幕组"，更应该是暴露高层驾驶意图、引导低层轨迹生成的"决策层"。

但现实是，许多 Driving VLA 在语言侧做出了合理的决策——"前方绿灯，应当加速直行"——生成的轨迹却是另一回事。模型预测了加速，轨迹却几乎静止。

研究团队在论文中展示了一个触目惊心的案例：仅经过监督微调的模型，在绿灯路口预测出 `accelerate, straight` 的元动作，但生成的 5 秒未来轨迹位移几乎为零。语言和行动之间，隔着一道没有桥梁的鸿沟。

此前的工作尝试过多种方式来弥合这道鸿沟。

DriveVLM试图让自动驾驶与大视觉语言模型真正汇合，把场景理解、推理和规划放进统一的视觉语言框架中；DriveAgent-R1进一步引入主动感知与混合思考机制，让模型不只是被动回答问题，而是学会围绕驾驶任务组织推理过程；也有工作尝试通过人类反馈强化学习学习更加个性化的驾驶风格，让轨迹规划更贴近人类偏好。

与此同时，SimLingo通过多任务训练和 Action Dreaming 来对齐语言与行动，LinkVLA将语言和行动 token 统一到共享空间并引入双向映射目标，Drive-R1则主要通过大规模驾驶 VQA 做领域对齐。

这些探索共同说明了一件事：语言确实能为自动驾驶规划提供高层语义支撑。但问题也随之暴露出来——许多方法仍然依赖隐式对齐，让模型通过辅助任务或额外数据自己去"悟"出语言和行动的对应关系。

DriveMA 的切入点因此显得格外直接：真正的突破口或许不在于设计更复杂的语言接口，而在于让语言接口变得可验证。

元动作：简单到被低估的中间接口

DriveMA 的核心设计非常简洁。

它引入了一种名为 元动作（Meta-Action）的中间语言接口。一个元动作由两部分组成：纵向动作——从 stop、decelerate、keep、accelerate 中四选一——和横向动作——描述粗粒度的机动意图，比如直行、转弯、变道或微调偏移。

听起来很简单，甚至有些过于简单了。

但关键在于，元动作是可验证的。一条生成的未来轨迹，可以通过基于规则的投影被映射回动作空间，然后检查它是否与模型自己做出的高层决策一致。这种可验证性，让语言决策与轨迹规划之间的对齐从"凭感觉"变成了"可度量"。

DriveMA 的整体流程可以概括为两步：给定驾驶输入，模型先预测一个紧凑的高层元动作，然后基于这个元动作和原始输入生成未来的路点轨迹。x → m → τ，一个清晰的"决策-执行"链条。

框架建立在通用视觉-语言模型 Qwen3.5 之上。视觉观测由视觉编码器处理，而非视觉输入和输出——包括轨迹坐标——都通过原生的文本分词器表示，不引入额外的模态适配层。

从轨迹中"长"出标注

元动作听上去像是需要大量人工标注的东西，但 DriveMA 走了一条更聪明的路。

研究团队设计了一套轨迹驱动的自动标注流水线。给定一条专家未来轨迹，系统将它划分为不重叠的时间块，然后对每个块标注离散的元动作。

纵向标注完全由轨迹几何特征决定。系统在训练集上对速度曲线特征进行聚类，自动发现数据集特定的运动边界，然后固化为确定性规则：极低速度和位移对应 stop，速度曲线斜率为负对应 decelerate，接近零对应 keep，为正对应 accelerate。

横向标注则采用"轨迹优先"的策略。航向角变化和横向位移首先用于识别近直线轨迹，微调偏移（shift slightly）由横向位移的方向和幅度直接判定。对于转弯、变道等需要视觉上下文才能区分的细粒度情况，系统先用轨迹规则生成候选标签集，再用受约束的视觉解析器从候选中选择最终标签。

重要的是，这套标注流水线不需要人工参与，同时又保留了轨迹可验证的核心属性。训练用细粒度标签，验证用粗粒度空间——这种设计既保证了监督信号的语义丰富性，又让一致性奖励的计算保持可靠。

先懂决策，再学控车

在进入强化学习之前，DriveMA 经历了两阶段的监督微调。

第一阶段是动作中心预训练（Action-Centric Pretraining，ACP）。这一阶段包含两类监督信号：元动作预测任务——模型从驾驶输入直接预测专家元动作，不生成轨迹——以及从公开数据集中筛选出的 24 万条驾驶相关 VQA 样本，覆盖驾驶意图、动作决策和风险感知行为。

第二阶段是元动作条件规划 SFT。模型学习完整的多轮生成序列：x → m* → τ*，即基于专家元动作来生成轨迹。

这两阶段的分离设计让模型先"理解驾驶决策"，再"学会具体控车"，避免了两种学习目标的相互干扰，也让后续的 RL 阶段有了一个更强的起点。

把奖励精准投递到每一个轮次

监督微调引入了元动作接口，但它并不能保证模型生成的轨迹一定忠实于自己的高层决策。

这里正是 DriveMA 最具技术洞察力的部分：Turn-Level Credit Assignment RL。

标准 GRPO 的做法是将一个序列级别的奖励分配给所有生成的 token。但 DriveMA 的生成是两轮的——第一轮是元动作决策，第二轮是轨迹预测——两个轮次优化的是不同的目标。把同一个奖励撒给所有 token，就像给前锋和守门员发一样的奖金，显然不合理。

DriveMA 的解法很直接：每个轮次拿自己的奖励，做自己的归一化。

第一轮（元动作轮）获得 R_meta——衡量预测元动作与专家元动作的一致性。第二轮（轨迹轮）获得两份奖励的加权和：R_traj 衡量轨迹质量（在 WOD-E2E 上用 RFS，在 NAVSIM 上用 PDMS），R_cons 衡量语言-行动一致性。

一致性奖励的计算正是元动作可验证性的直接体现：将生成的轨迹投影到验证空间，将预测的元动作也投影到同一空间，然后比较两者是否一致。如果模型说了"右转"，但轨迹几乎直行，就会收到低一致性奖励。

奖励在各自轮次内按组归一化后用于优势函数计算，来自不同轮次的奖励不会互相干扰。这让每个 token 收到的梯度信号都精确地对应它应该优化的目标。

SOTA 表现与消融实验的启示

在 WOD-E2E（Waymo 开放数据集端到端驾驶基准）上，DriveMA 全面刷新了记录。

DriveMA-2B 以 8.060 的 RFS Overall 分数登顶，在官方最具挑战性的 Spotlight 子集上也拿到了最高的 7.251 分，ADE@5s 降至 2.616。4B 版本进一步将纪录推至 8.079。在 NAVSIM 上，DriveMA 也取得了与 SOTA 端到端规划器相当的闭环规划性能，在 VLA 方法中保持领先。

消融实验讲述了一个清晰的故事。

直接做轨迹 SFT 的基线 RFS 是 7.741。引入元动作引导后，RFS 提升至 7.804——有用，但增益有限。加上动作中心预训练后，RFS 跃升至 7.893，Spotlight 子集提升尤其明显，说明驾驶领域决策知识的注入帮助模型更好地泛化到长尾场景。

最关键的跃迁来自 Turn-Level Credit Assignment RL。在相同的奖励信号下，它比标准 GRPO 的提升更显著：从 7.978 到 8.060。特别是在加入一致性奖励后，语言-行动一致性从 88.50% 飙升至 98.80%。这意味着模型几乎总是能做到"说到做到"。