当前位置：首页>自动驾驶>自动驾驶新思路:让大模型“动嘴”,小模型“动手”

自动驾驶新思路:让大模型“动嘴”,小模型“动手”

2026-03-16 23:31:29

🚗 自动驾驶“大脑”也要分工合作？
还在纠结用大模型还是小模型开车？德州农工大学团队告诉你：小孩子才做选择，成年人全都要！让大模型负责“动嘴”推理，小模型负责“动手”规划，鱼与熊掌这次真的可以兼得！👇想第一时间拆解这种“解耦”思维的顶会论文？扫码加入「龙哥读论文」知识星球，前沿干货、实用资源一站式拿捏～

龙哥推荐理由：
这篇论文解决了一个非常实际的痛点：大视觉语言模型（VLM）语义理解强但控制精度差，小VLM好调教但“脑子”不够用。它提出的“导航员-驾驶员”解耦框架，思路清晰、实现巧妙，不仅提升了端到端规划性能，还天然提供了可解释的中间推理过程，对推动安全、可信的自动驾驶系统很有启发。关键是，开源代码已放出，复现和借鉴的门槛大大降低！

原论文信息如下：

论文标题:
NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving 发表日期:
2026年03月发表单位:
德州农工大学 (Texas A&M University) 等原文链接:
https://arxiv.org/pdf/2603.07901v1.pdf 开源代码链接:
https://github.com/TAMU-CVRL/NaviDrive

大模型懂推理却不会开车？小模型会开车却不懂事？

想象一下，你车上有两位“司机”。一位是“懂王”：上知天文下知地理，能一眼看穿前方有行人、红绿灯变化，还能说出“此时应该减速礼让，因为安全第一”这样的大道理。但让他动手开车？方向盘往哪打，油门踩多深？他可能只会给你画一幅抽象画。🤷‍♂️

另一位是“老司机”：操控精准，说走就走，说停就停，未来几秒的行驶轨迹算得明明白白。但你问他“刚才为啥要刹车？”，他可能只会回答：“数据告诉我要这么开。” 🚗💨

这就是当前基于视觉语言模型（Vision-Language Model，简称 VLM）的端到端自动驾驶面临的核心困境。VLM就是那种既能“看”图，又能“理解”和“生成”语言的AI模型。

大VLM（比如上百亿参数）：像“懂王”，语义理解、逻辑推理能力超强，能详细描述场景并给出决策理由，可解释性高。但让它直接输出精确的控制指令或未来路径点（Waypoints），就像让哲学家去开挖掘机——不经过专门的、昂贵的“培训”（微调），根本做不到。

小VLM（比如几亿参数）：像“老司机”，计算量小，容易微调，可以很快学会预测准确的未来路径，适合实时控制。但一微调，它原本那点可怜的“常识”和“推理能力”就可能退化，变成一个只会机械反应的“哑巴司机”，无法理解复杂场景。

用一个模型同时搞定高级推理和精细控制，似乎是个“鱼与熊掌不可兼得”的难题。德州农工大学的研究者们挠了挠头：为啥非要二选一呢？让“懂王”和“老司机”组队干活不香吗？

图1：大VLM与小VLM在推理和规划上的困境对比。(a) 大VLM推理能力强但无法生成准确的驾驶动作；(b) 小VLM经过微调能预测未来路径点，但推理能力下降；(c) NaviDriveVLM将两者解耦，保留了强推理能力的同时优化了驾驶性能。

拆解思维与行动：NaviDriveVLM的“导航员”与“驾驶员”

于是，NaviDriveVLM 应运而生。这个名字就透露了它的核心思想：Navigator（导航员）+ Driver（驾驶员）。

这个框架像是一个精密的驾驶协作系统，明确分工，各司其职：

1. 导航员 (Navigator)：动嘴的“大脑”

由一个大参数量的、冻结的（不更新参数）VLM担任。它的任务不是开车，而是“看”和“想”。

输入包括：车辆周围的环视摄像头图像、自车状态（速度、加速度等）、一个高级导航指令（如“左转”、“直行”）。然后，它需要输出一份结构化的“思维报告”，包含三部分：

• 场景描述： “前方有停止标志，左侧有车辆接近。”

• 推荐动作：“减速并在停止线前停车。”

• 推理理由：“因为交通规则要求，且确保安全。”

2. 驾驶员 (Driver)：动手的“专家”

由一个轻量级的、可训练的VLM担任。它的任务是把“导航员”的“思维报告”转化成具体的、可执行的行动。

它接收导航员的“思维报告”（作为关键的文本输入），再加上（通常是前视）图像和自车状态。然后，它的目标是预测未来一段时间（例如6秒）内，车辆应该遵循的一系列路径点坐标（(x, y)）。

这个设计的精妙之处在于：

• 保留了大模型的“智商”：导航员参数冻结，其强大的推理能力不会被下游的驾驶任务“污染”或遗忘。

• 降低了训练成本：只需要微调小体量的驾驶员模型，计算开销和所需数据量都大幅减少。

• 实现了可解释性：“导航员”生成的“思维报告”是一个明确、可读的中间表示。我们不仅知道车要往哪开，还知道它为什么这么开！这对于安全至关重要的自动驾驶来说，价值巨大。

图2：NaviDriveVLM整体架构图。框架解耦为作为导航员的大VLM和作为驾驶员的轻量级VLM。(a) 多视角环视图像被编码为视觉token（蓝色）。导航员提示和自车状态被标记为文本token（粉色和橙色）。(b) 导航员VLM生成推理token（绿色），这些token与前视图像token、驾驶员提示和自车状态token拼接后输入驾驶员VLM。(c) 驾驶员VLM被微调以预测未来路径点或驾驶动作。推理token可被解码为文本以提供可解释性。

如何让“导航员”说人话？“驾驶员”听指挥？

知道了分工，具体怎么实现呢？关键在两点：提示工程和训练策略。

给“导航员”的详细“工作手册”

要让大VLM输出结构化的推理，不能只问“现在怎么办？”。必须给出清晰的指令。NaviDriveVLM为导航员设计了详细的系统提示，相当于一份工作手册：

你是一个自动驾驶导航专家。请逐步推理并严格遵守以下规则：
1. 坐标系：当前自车位置为 (0,0)。X轴正方向为前方，Y轴正方向为左方。
2. 注意力优先级：重点关注“动态危险物”和“交通管制标志”。
3. 输出格式：以简洁的“感知”摘要开始，然后是“行动”，最后是简要的“推理”。

用户提示则提供具体的图像、状态和高级指令（如“前方路口右转”）。通过这样严格的提示，导航员就能生成格式规整、内容相关的“思维报告”。

教“驾驶员”看懂报告并执行

驾驶员模型的提示则不同，它需要引导模型利用“思维报告”来预测路径。系统提示会告诉它：“你是一个驾驶专家，使用提供的推理、图像和状态来预测未来路径点。”

在训练时，驾驶员模型以自回归的方式进行监督微调。它的输入是导航员生成的“思维报告”（文本token）、图像token和状态token。输出目标是一系列真实的未来路径点坐标。

这个过程可以用公式来表达。导航员的推理生成过程为：

公式：导航员VLM的推理生成过程，其中O_R是推理输出，G_N是导航员模型，I是图像，O_ego是自车状态，Q_N和S_N是用户和系统提示。

驾驶员预测未来路径点的过程为：

公式：驾驶员VLM预测未来路径点W，其中G_D是驾驶员模型，O_R是推理输出，其他输入与之前类似。

训练的目标是让驾驶员模型预测的路径点概率最大化，损失函数采用标准的负对数似然：

公式：监督微调(SFT)的损失函数，通过最小化未来路径点序列的负对数似然来优化驾驶员参数θ_D。

图3：导航员-VLM和驾驶员-VLM的提示设计。

实验结果：解耦框架真的能“鱼与熊掌兼得”吗？

理论很美好，实战行不行？论文在著名的自动驾驶数据集nuScenes上进行了全面的实验验证。

先来看直观的定性对比。下图展示了在三个典型场景（A. 停车标志前停车，B. 礼让行人，C. 通过绿灯路口）下，不同方法的表现：

图4：三种不同驾驶场景下的定性结果对比。预测的路径点用蓝色遮罩和蓝点可视化，真实路径点用绿色显示。括号内显示了6秒内的最小平均L2误差（米）。第一行代表未微调的大VLM，能生成合理的高级推理，但预测的未来路径点与真实值偏差很大。第二行对应经过微调的小VLM，能生成适用于控制的准确未来路径点，但缺乏强大的场景理解和推理能力。第三行展示了本文提出的NaviDriveVLM框架，它结合了可靠的高级推理和准确的未来路径点预测。

可以清晰地看到：

• 只大不小（第一行）：推理说得头头是道，但预测的路径（蓝色）和真实路径（绿色）差之千里，误差巨大（L2误差高达9.4米、1.37米、10.79米）。

• 只小不大（第二行）：路径预测准了，误差很小（0.93米、0.58米、0.06米），但生成的推理要么错误（把“停车”说成“直行”），要么过于简略缺乏信息量。

• NaviDriveVLM（第三行）：既准又好！不仅推理完整正确，路径预测的精度也极高（0.93米、0.58米、0.06米），真正实现了“鱼与熊掌兼得”。

再看看硬核的定量指标。下表是在nuScenes上的开环运动规划结果，衡量的是预测路径点与真实值之间的L2距离（越小越好）：

表I：在nuScenes数据集上的端到端运动规划实验结果。

结果非常振奋人心：

• NaviDriveVLM（使用2B参数的驾驶员）在3秒预测时域上，超越了诸多强大的基线模型，包括ST-P3、Ego-MLP、UniAD等。

• 更重要的是，与单一的Driver-VLM基线（仅使用8B模型微调，没有独立的导航员）相比，NaviDriveVLM（2B+导航员）取得了全面领先的成绩（平均L2误差0.46 vs 0.60）。这说明，解耦设计引入的明确推理信息，实实在在地提升了规划性能，而不仅仅是参数量的差异。

论文还探索了直接预测控制动作（加速度、曲率）与预测路径点的区别：

表II：路径点与动作预测性能比较。

结果表明，路径点预测在短期（1s, 2s, 3s）更准，而直接的动作预测在长期（6s）平均表现稍好。两者都是可行的输出形式。

最后，消融研究揭示了各个输入组件的重要性：

表III：NaviDriveVLM输入组件的消融研究。

• 导航员的推理（Reason）和高级命令（Command）对提升性能至关重要。缺少它们，误差会显著增加。

• 有趣的是，图像（Images）输入带来的增益相对较小。这可能是因为导航员提供的文本推理已经包含了最关键的场景语义信息，图像中的大量细节对驾驶员模型来说有时反而是冗余的。

未来之路：更智能、更安全的自动驾驶系统

NaviDriveVLM的“解耦”思想，为VLM在自动驾驶中的应用推开了一扇新的大门。它不仅仅是一个性能更强的模型，更代表了一种兼顾性能、效率与可解释性的系统设计范式。

对于未来的研究，这条路线上还有许多可以探索的方向：如何进一步提升“导航员”推理的质量和可靠性？如何将这种开环预测框架扩展到闭环的、与仿真或真实环境交互的强化学习系统中？“驾驶员”能否从单一的路径预测，进化到能处理多模态、不确定性的决策？随着世界模型等新技术的融入，这个“导航员-驾驶员”二人组的能力边界又在哪里？

归根结底，让AI像人类一样“思行合一”，是通向高级自动驾驶的必由之路。NaviDriveVLM告诉我们，也许不必强求一个“全能超人”，培养一个配合默契的“精英团队”，会是更务实、更高效的选择。毕竟，好的驾驶，既需要看清路的眼睛和思考的头脑，也需要稳住方向盘的手。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

这篇论文最核心解决了什么问题？它解决了在端到端自动驾驶中使用单一视觉语言模型（VLM）时，无法同时兼顾“强大语义推理能力”和“精准运动规划能力”的矛盾。大模型推理强但控制差，小模型好控制但推理弱。本文通过“导航员-驾驶员”解耦框架，让大模型专职推理，小模型专职规划，从而实现了两者优势的结合。

“导航员”和“驾驶员”具体有什么区别？导航员（Navigator）是一个冻结的、大型的VLM，负责高级场景理解和思维链推理，输出可读的“场景-行动-理由”报告。驾驶员（Driver）是一个可微调的、轻量级的VLM，负责接收导航员的报告和其他感知信息，输出具体的未来路径点或控制指令。一个动“脑”（嘴），一个动“手”。

什么是VLM和端到端自动驾驶？VLM（Vision-Language Model）是视觉语言模型，能同时处理图像和文本，理解两者间的关联。端到端自动驾驶是指用一个统一的模型，直接从传感器输入（如图像）映射到控制输出（如方向盘转角、油门），省去了传统流水线中感知、预测、规划等独立模块。本文的VLM用于实现这种端到端映射，但创新性地将其拆成了“理解”和“执行”两个子模块。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~