当前位置：首页>自动驾驶>中大梁小丹团队IRR-Drive:自动驾驶 VLA,什么时候该反思?!

中大梁小丹团队IRR-Drive:自动驾驶 VLA,什么时候该反思?!

2026-06-24 13:47:55

作者 | Zisheng Chen, Yuping Qiu, Jianhua Han, Tao Tang, Xiuwei Chen, Likui Zhang, Ying-Cong Chen, Hang Xu, Xiaodan Liang

机构 | Sun Yat-sen University / HKUST(GZ) / Yinwang Intelligent Technology Co. Ltd.

论文标题 | Intend, Reflect, Refine: An Adaptive Multimodal Reflection Framework for Autonomous Driving

论文版本 | arXiv:2606.22913v1

关键词 | Autonomous Driving / Vision-Language-Action / Adaptive Reflection / Future BEV / NAVSIM / Reinforcement Learning / Planning

前言

自动驾驶 VLA 模型这段时间有一个很明显的趋势：不再只做端到端轨迹回归，而是把 reasoning、CoT、future scene prediction、world model 等能力塞进规划模型里。

但这篇 IRR-Drive 提醒了一个更细的问题：推理本身不等于可靠规划，反思也不应该永远打开。如果模型只是生成一段看似合理的解释，然后直接输出轨迹，它其实没有真正检查这条轨迹未来会发生什么；如果每个场景都强行走完整反思流程，又会把推理成本拉得很高。

IRR-Drive 的答案是三个词：Intend, Reflect, Refine。先生成轨迹意图，再用未来 BEV 和文本反思检查复杂场景，最后修正意图并输出轨迹。

最值得记住的结论：IRR-Drive 把反思从“静态后处理”变成“按场景复杂度自适应启动的规划机制”。在 NAVSIM v1 上达到 91.3 PDMS，在 NAVSIM v2 上达到 89.0 EPDMS；自适应模式只需 1.70s，明显低于全反思模式的 3.03s。

资源链接

arXiv 页面：arXiv:2606.22913v1
代码状态：PDF、arXiv 页面和公开检索中暂未发现作者提供的项目页或代码仓库链接。

图 1：IRR-Drive 总览。论文将模型训练拆成三阶段：预训练驾驶世界理解和未来 BEV 生成，SFT 学习简单场景直出/复杂场景反思，最后用强化学习优化规划和自适应反思。

这篇论文真正想解决什么

已有 VLA 驾驶模型通常有两类做法：一类直接输出 trajectory，另一类在输出前生成 reasoning。问题在于，reasoning 往往只是语言层面的解释，和真实物理约束之间仍然隔着一层。

IRR-Drive 认为，自动驾驶规划里的“反思”必须满足两个条件：

要 grounded
：不能只在文字里说“应该减速”，还要看到未来 BEV 里是否会压线、碰撞或离开可行驶区域。
要 adaptive
：简单场景不应该浪费推理预算，复杂场景才需要额外反思和修正。

这也是标题里 Intend, Reflect, Refine 的含义。Intend 生成初始轨迹意图；Reflect 用 Text + BEV 预测未来后果并生成反思；Refine 根据反思修正意图和最终轨迹。

这篇论文的重点不是“让 VLA 多说几句话”，而是让模型在必要时用未来 BEV 作为空间证据，检查初始意图是否会带来不安全后果。

图 2：自适应多模态反思数据构造。先用轻量规划器按 PDMS 把 NAVSIM navtrain 分成简单/复杂场景，再为复杂样本生成未来 BEV、轨迹意图和 BEV-grounded reflective text。

训练数据：先知道哪些场景值得反思

IRR-Drive 的数据构造很实用。它先训练一个 base VLA，在 NAVSIM navtrain 上跑出 predicted PDMS，然后把低分样本当作 challenging scenes，高分样本当作 simple scenes。

简单场景的数据结构比较短：Human Trajectory Intent → Final Trajectory。复杂场景则多了几个环节：Low-score Trajectory Intent → Future BEV at 4s → BEV-based Reflective Text → Refined Trajectory Intent → Final Trajectory。

也就是说，反思不是凭空来的。低分 trajectory 先被投到未来 BEV 中，碰撞风险、安全距离不足、可行驶区域偏离等问题会变成空间可见证据，再交给 VLM 生成反思文本。

这个设计很像给规划模型建立一套“错题本”：先找出 base planner 容易失败的场景，再把失败后果显式放进 future BEV，让模型学习什么时候需要慢下来检查。

图 3：IRR-Drive 的 adaptive planner。输入多视图、指令和 ego status 后，模型先生成 initial intent；复杂场景会预测 intent-conditioned BEV 并生成 BEV-grounded reasoning，再 refine 成最终意图和轨迹。

方法：反思被嵌进规划流程，而不是外挂解释

IRR-Drive 的输入包括 multi-view images、instruction、ego status，以及速度、加速度和历史轨迹等状态。模型先输出 initial intent，例如未来 4 秒 x/y 方向的加减速和横向漂移描述。

如果判断为复杂场景，系统会进入 Reflect：根据 initial intent 预测 future BEV，再生成 BEV-grounded reasoning，包括全局场景描述、安全评估和轨迹修改建议。最后，Refine 阶段把这些反思压回 refined intent 和 final trajectory。

简单场景：Intention → Final Trajectory

复杂场景：Intention → Future BEV → Reflective Text → Refined Intention → Final Trajectory

这和很多“先规划、再解释”的方法相反。IRR-Drive 的反思文本不是事后说明，而是参与轨迹修正的中间变量。

图 4：两类关键奖励。Concentric OBB-FDE 用朝向感知的同心 OBB 给终点误差分层奖励；adaptive reflection reward 鼓励简单场景不反思，复杂场景按需要反思。

奖励：既要会规划，也要会省计算

强化学习阶段是 IRR-Drive 的另一个关键点。论文把多个 reward 放在一起：PDMS reward、format reward、Concentric OBB-FDE reward，以及 adaptive reflection reward。

其中 Concentric OBB-FDE reward 很有工程味：它不是只看终点 L2 距离，而是以 expert endpoint 为中心构造带朝向的多层 OBB。预测终点落在越内层，奖励越高。这比二值 collision penalty 更平滑，也更贴近车辆几何。

Adaptive reflection reward 则负责避免模型塌缩成一种模式：简单场景鼓励 non-reflection；复杂场景允许 reflection，但如果 non-reflection 已经达到高 PDMS，也可以不反思。

R = R_PDMS + R_format + R_OBB + R_reflection

这部分最有意思的地方在于，论文不是单纯奖励“多反思”，而是奖励“该反思时反思，不该反思时直接走”。

表 1：NAVSIM v1 主结果。IRR-Drive-4B 达到 91.3 PDMS，与 LaST-VLA-8B 持平，同时 EP 达到 88.5；IRR-Drive-3B 也达到 90.6 PDMS。

关键结论一：NAVSIM v1 上达到一线水平

表 1 是 NAVSIM v1 的主结果。IRR-Drive-4B 使用 Qwen3-VL-4B，仅摄像头输入，得到 91.3 PDMS，与 LaST-VLA-8B 持平，超过 DriveVLA-W0 的 90.3、ELF-VLA-8B 的 91.0。

更值得注意的是 EP 指标。IRR-Drive-4B 的 EP 为 88.5，高于 LaST-VLA 的 86.8 和 ELF-VLA 的 85.3。EP 更接近轨迹端点表现，说明它的反思机制确实在轨迹质量上产生了收益。

IRR-Drive-3B 也达到 90.6 PDMS，说明框架本身并不完全依赖大模型尺寸；即使用 3B 级 VLM，也能接近强 baseline。

表 2/3：NAVSIM v2 和推理模式对比。IRR-Drive-4B 在 NAVSIM v2 上达到 89.0 EPDMS；自适应模式用 1.70s 达到 91.3 PDMS，比全反思模式 3.03s 更高效。

关键结论二：自适应反思比全反思更划算

NAVSIM v2 更难，指标也扩展成 EPDMS。IRR-Drive-4B 在表 2 中达到 89.0 EPDMS，高于 LaST-VLA-8B 和 ELF-VLA-8B 的 87.1，也高于 DriveVLA-W0-3B 的 86.1。

表 3 则直接证明“不是反思越多越好”。Non-Reflection 是 90.6 PDMS / 1.46s；统一 Reflection 是 90.8 PDMS / 3.03s，耗时翻倍但提升很小；IRR-Drive 自适应模式是 91.3 PDMS / 1.70s。

这组数字其实是全文最关键的行业信号：在部署场景里，推理预算不是无限的。一个反思模块只有能判断什么时候该启动，才有工程价值。

表 4：奖励消融。PDMS reward、adaptive reflection reward 与 Concentric OBB-FDE reward 组合后，PDMS 提升到 91.3，反思比例稳定在 20.6%。

关键结论三：奖励函数决定反思行为是否稳定

表 4 从 reward 角度拆解了结果。只用 pre-RL baseline，PDMS 是 87.6，反思比例 11.1%。只加 PDMS reward 后，PDMS 到 88.9，但反思比例塌到 1.9%，说明模型容易学成“几乎不反思”。

加入 adaptive reflection reward 后，PDMS 到 90.5，反思比例 22.9%；再加入 Concentric OBB-FDE reward，最终达到 91.3 PDMS，反思比例稳定在 20.6%。

这说明反思行为本身也需要被训练和约束。否则模型要么过度反思，成本太高；要么完全不反思，复杂场景风险无法被纠正。

表 5/6/7：Text+BEV CoT、group size 和训练阶段消融。Text 与 BEV 结合后 PDMS 达到 91.3；group size=8 最优；Pre+SFT+RL 相比 SFT 提升 5.6 PDMS。

消融：Text 和 BEV 缺一不可

表 5 是 CoT 内容消融。只用 Text，RL 后 PDMS 为 90.6；只用 BEV，为 90.5；Text+BEV 组合达到 91.3。这说明文本 reasoning 和 BEV 空间证据是互补的。

表 6 显示 group size=8 最合适：从 4 到 8，PDMS 从 90.8 到 91.3；继续到 12 反而略降到 91.2。表 7 则说明三阶段训练有效：SFT 是 85.7，Pre+SFT 是 87.6，Pre+SFT+RL 最终到 91.3。

这里可以把 IRR-Drive 的训练逻辑概括成一句话：预训练建立驾驶世界理解，SFT 教模型区分简单/复杂和生成反思链，RL 再把闭环指标与反思开关对齐。

图 5：semantic BEV tokenizer。它把 BEV 表示离散成类似 <IMG_OF_XXXX> 的特殊 token，使未来 BEV 能接入自回归 VLM 工作流。

为什么需要 semantic BEV tokenizer

IRR-Drive 要把未来 BEV 放进自回归 VLM 的推理链里，因此需要把 BEV 表示离散化成 token。图 5 展示了 semantic BEV tokenizer：冻结 semantic encoder 提取 BEV 特征，再通过 codebook 量化成离散 code，最后映射为类似 <IMG_OF_0951> 的 special tokens。

这个设计让未来 BEV 不再只是外部图片，而是可以被 VLM 作为 token 序列处理。换句话说，模型的反思空间同时包含语言 token 和 BEV token。

局限与判断

论文也有比较清楚的边界。第一，实验主要在 NAVSIM 上验证，仍需要更多真实闭环和交互式仿真验证。第二，反思数据依赖 base planner 的低分样本划分，以及 VLM 生成 reflective text 的质量。第三，虽然自适应反思降低了成本，但相比纯 non-reflection 仍有额外推理开销。

不过方向很明确：自动驾驶 VLA 的下一步，不只是让模型能解释驾驶行为，而是让模型能在执行前用未来后果检查自己，并且根据场景复杂度决定是否值得花这笔计算。

IRR-Drive 的价值在于，把“反思”从语言层面的解释，推进到规划层面的可执行机制：先预测未来，再看哪里不安全，最后只在必要时修正轨迹。

结论

IRR-Drive 不是单纯追求更长 CoT，而是把反思变成一个可训练、可度量、可调度的规划模块。它用未来 BEV 给高层意图提供物理证据，用 adaptive reflection reward 控制推理成本，再用 RL 对齐闭环规划指标。

对自动驾驶 VLA 来说，三个结论最值得记住：

反思要有空间证据，Text+BEV 比纯文本推理更可靠。
反思要自适应，简单场景直接规划，复杂场景再进入 Reflect/Refine。
规划模型的 reasoning 不应只服务可解释性，还应该直接服务轨迹修正和闭环评分。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

中大梁小丹团队IRR-Drive:自动驾驶 VLA,什么时候该反思?!

前言

资源链接

这篇论文真正想解决什么

训练数据：先知道哪些场景值得反思

方法：反思被嵌进规划流程，而不是外挂解释

奖励：既要会规划，也要会省计算

关键结论一：NAVSIM v1 上达到一线水平

关键结论二：自适应反思比全反思更划算

关键结论三：奖励函数决定反思行为是否稳定

消融：Text 和 BEV 缺一不可

为什么需要 semantic BEV tokenizer

局限与判断

结论

最新文章

热门文章

随机文章

中大梁小丹团队IRR-Drive:自动驾驶 VLA,什么时候该反思?!

前言

资源链接

这篇论文真正想解决什么

训练数据：先知道哪些场景值得反思

方法：反思被嵌进规划流程，而不是外挂解释

奖励：既要会规划，也要会省计算

关键结论一：NAVSIM v1 上达到一线水平

关键结论二：自适应反思比全反思更划算

关键结论三：奖励函数决定反思行为是否稳定

消融：Text 和 BEV 缺一不可

为什么需要 semantic BEV tokenizer

局限与判断

结论

首付6万6,立省5万多!这台美式旗舰SUV全新福特探险者,开它出门太有面儿

豪华全尺寸SUV大比拼,奶爸老刘告诉你哪款最实用!

最新文章

热门文章

随机文章