当前位置：首页>自动驾驶>ACM MM 2025 | 突破自动驾驶长尾场景难题!VLMPlanner:让视觉语言模型为运动规划保驾护航

ACM MM 2025 | 突破自动驾驶长尾场景难题!VLMPlanner:让视觉语言模型为运动规划保驾护航

2026-05-07 22:39:35

在自动驾驶技术飞速发展的今天，运动规划作为核心环节，始终面临着复杂动态场景尤其是长尾极端情况的挑战。传统规划方法在处理这类场景时常常“力不从心”，而单纯依赖大语言模型的方案又受限于标记、数值计算等短板。近期，一篇发表于ACM MM 2025的研究论文提出了VLMPlanner框架，创新性地将视觉语言模型（VLM）与实时运动规划器深度融合，为解决这一行业痛点提供了全新思路。

我整理了“运动规划＋多模态融合”方向10篇相关论文，帮助大家了解学习“运动规划＋多模态融合”方向，选题，挖创新点。

扫码回复

“运动规划＋多模态融合”

免费领取&进交流群

论文信息

题目：VLMPlanner: Integrating Visual Language Models with Motion Planning

视觉语言模型与运动规划的集成：VLMPlanner

作者：Zhipeng Tang、Sha Zhang、Jiajun Deng、Chenjie Wang、Guoliang You、Yuting Huang、Xinrui Lin、Yanyong Zhang

一、痛点直击：现有规划方法的两大核心问题

此前基于大语言模型（LLMs）的规划方法，要么将驾驶场景转换为结构化自然语言或鸟瞰图输入模型，受标记限制丢失细粒度视觉特征；要么仅将感知输出馈入LLM/VLM，压缩的信息无法捕捉道路水坑、非机动车转向信号等关键细节，导致规划决策缺乏安全性和鲁棒性。

即便部分方法尝试将LLM集成到实时规划器中，也未能充分利用原始图像的丰富信息，难以应对复杂的长尾驾驶场景。如何兼顾细粒度场景理解、精准轨迹规划与计算效率，成为自动驾驶运动规划的关键瓶颈。

图1：(a)传统LLM规划方法依赖结构化表示，(b)部分集成方法仍受限感知输入，(c)VLMPlanner利用多视图图像捕捉细粒度细节

二、VLMPlanner：四大创新点破解行业难题

创新点1：多视图图像驱动的VLM-规划器混合框架

VLMPlanner最核心的突破，是放弃了“用LLM直接生成轨迹”的思路，转而将基于学习的实时规划器与能处理原始图像的VLM深度融合。VLM接收多视图图像作为核心输入之一，捕捉道路标线、行人动作、突发障碍物等细粒度视觉信息，再通过常识推理能力引导实时规划器生成安全轨迹，大幅提升了复杂场景下的决策鲁棒性。

创新点2：上下文自适应推理门（CAI-Gate）

为解决VLM推理耗时、难以适配实时规划的问题，研究团队设计了CAI-Gate机制。该模块以多视图图像和地图信息为输入，通过基于学习（EfficientNet-B0+序数回归模型）和基于规则（车辆/行人数量、车道数、车速等维度）两种方式评估场景复杂度，动态调整VLM的推理频率——简单场景降低推理频次节省算力，复杂场景提高频次保证性能，完美模仿人类“按需分配注意力”的驾驶行为。

创新点3：专属自动驾驶的VQA数据集

现有VLM缺乏自动驾驶场景的针对性训练数据，研究团队基于nuPlan数据集构建了两大专属数据集：

DriveVQA（49673个样本）：聚焦自动驾驶指令、轨迹、控制信号理解，通过算法生成图像-文本问答对，强化VLM对驾驶操作的认知；
ReasoningVQA（1099个样本）：结合手动规则与GPT-4生成，让VLM学习基于交通规则和场景信息的规划推理逻辑，提升场景理解与决策能力。

创新点4：两阶段训练范式

为最大化模型效果，团队采用“预训练+微调”两阶段训练：

预训练阶段：先用DriveVQA增强VLM对驾驶指令/轨迹的理解，再用ReasoningVQA+少量DriveVQA提升推理能力，全程采用LoRA轻量化训练；
微调阶段：基于nuPlan的10000个采样实例，将VLM增强的特征注入实时规划器，结合规划损失与速度预测、交通灯识别等辅助任务损失，优化最终轨迹生成效果。

三、核心架构：VLMPlanner的整体设计

VLMPlanner的总体框架清晰易懂，核心是“实时规划器+VLM模块+CAI-Gate”的三位一体结构：

图2：VLMPlanner总体架构图

多模态输入处理

地图信息：提取自车/邻车历史状态、车道/人行横道特征，经MapEncoder编码+MLPAdapter维度匹配后，生成地图特征标记；
多视图图像：先通过CLIP编码视觉特征，再经3D感知模块（引入3D位置编码、可学习参考点）将2D图像特征投影到3D空间，既减少标记数量，又增强空间理解，最后通过ImgAdapter对齐VLM维度；
系统消息+导航指令：系统消息定义VLM的“自动驾驶角色”，导航指令由真实轨迹/地图信息生成，引导模型聚焦规划任务。

VLM引导的实时规划

将地图、图像、语言特征输入VLM得到隐藏层特征，通过自适应注入块将VLM的场景理解结果融入实时规划器的解码层，既保留规划器的数值计算优势，又赋予其VLM的场景推理能力，最终生成精准、安全的轨迹。

四、实验验证：性能与效率双优

研究团队基于nuPlan基准构建了Open-Hard20（开环）、Close-Hard20（闭环）两大长尾场景测试集，对比PDM、GameFormer、PlanTF、AsyncDriver等主流方法，VLMPlanner展现出显著优势：

定量结果

开环测试：两个版本的VLMPlanner均超越基线规划器，性能优于SOTA方法PlanTF；
闭环测试：非反应式设置下比DTPP提升1.68%，反应式设置下比GameFormer提升3.33%，核心指标“碰撞概率”大幅降低，安全性显著提升。

表1：Close-Hard20非反应式配置下各方法性能对比

表2：Close-Hard20反应式配置下各方法性能对比

消融实验

CAI-Gate有效性：即使VLM平均推理间隔提升至91，模型仍保持优异性能，远超固定间隔推理的AsyncDriver；
预训练价值：经DriveVQA+ReasoningVQA预训练后，闭环测试性能显著提升，验证了专属数据集的必要性。

表3：不同CAI-Gate配置下的性能对比

定性案例

视觉对比实验更直观展现VLMPlanner的优势：图3：VLMPlanner与AsyncDriver的场景应对对比

“行人过马路”场景：AsyncDriver未识别行人导致碰撞，VLMPlanner通过多视图图像捕捉行人动作，停车等待直至行人通过；
“红灯静止”场景：AsyncDriver误判交通灯继续行驶，VLMPlanner精准识别红灯信号，等待放行后再通行。

五、总结与展望

VLMPlanner的核心价值，在于打通了“原始视觉信息-语言推理-实时规划”的链路：通过多视图图像充分利用细粒度场景信息，通过CAI-Gate平衡性能与效率，通过专属数据集和两阶段训练让VLM真正适配自动驾驶场景。这一框架不仅在nuPlan基准上取得了SOTA性能，更为解决自动驾驶长尾场景难题提供了可落地的新思路。

未来，随着多模态大模型的持续演进，结合更高清的多视图感知、更精细的场景复杂度评估、更丰富的自动驾驶语料，VLM与运动规划的融合有望实现更安全、更高效的自动驾驶决策，推动行业向L4级完全自动驾驶更进一步。

如果大家有要宣传的工作（paper、项目、rp、招聘等），欢迎后台留言

关注+星标不迷路~

CCF/SCI/SSCI论文辅导

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

ACM MM 2025 | 突破自动驾驶长尾场景难题!VLMPlanner:让视觉语言模型为运动规划保驾护航

论文信息

题目：VLMPlanner: Integrating Visual Language Models with Motion Planning

视觉语言模型与运动规划的集成：VLMPlanner

作者：Zhipeng Tang、Sha Zhang、Jiajun Deng、Chenjie Wang、Guoliang You、Yuting Huang、Xinrui Lin、Yanyong Zhang

一、痛点直击：现有规划方法的两大核心问题

二、VLMPlanner：四大创新点破解行业难题

创新点1：多视图图像驱动的VLM-规划器混合框架

创新点2：上下文自适应推理门（CAI-Gate）

创新点3：专属自动驾驶的VQA数据集

创新点4：两阶段训练范式

三、核心架构：VLMPlanner的整体设计

多模态输入处理

VLM引导的实时规划

四、实验验证：性能与效率双优

定量结果

消融实验

定性案例

五、总结与展望

最新文章

热门文章

随机文章

ACM MM 2025 | 突破自动驾驶长尾场景难题!VLMPlanner:让视觉语言模型为运动规划保驾护航

论文信息

题目：VLMPlanner: Integrating Visual Language Models with Motion Planning

视觉语言模型与运动规划的集成：VLMPlanner

作者：Zhipeng Tang、Sha Zhang、Jiajun Deng、Chenjie Wang、Guoliang You、Yuting Huang、Xinrui Lin、Yanyong Zhang

一、痛点直击：现有规划方法的两大核心问题

二、VLMPlanner：四大创新点破解行业难题

创新点1：多视图图像驱动的VLM-规划器混合框架

创新点2：上下文自适应推理门（CAI-Gate）

创新点3：专属自动驾驶的VQA数据集

创新点4：两阶段训练范式

三、核心架构：VLMPlanner的整体设计

多模态输入处理

VLM引导的实时规划

四、实验验证：性能与效率双优

定量结果

消融实验

定性案例

五、总结与展望

日产NX8 SUV中国版

今夜定价!六座SUV市场炸场,零跑D19、大唐紧随其后

最新文章

热门文章

随机文章