
「端到端自动驾驶的“导航盲区”被破解了」
然而,对于当前备受追捧的端到端自动驾驶系统来说,情况却截然相反。
研究人员惊讶地发现,哪怕直接把输入给模型的导航信息删掉或者故意改错,车辆依然能开得稳稳当当。这种“反直觉”的现象暴露了一个致命问题:现有的端到端模型根本没有真正理解全局导航信息,它们只是在死记硬背局部场景。
为了打破这种“局部短视”,复旦大学、滴滴出行、清华大学AIR以及中科院自动化所的研究团队联合提出了一种全新的连续导航引导(SNG)框架。他们让端到端自动驾驶模型真正拥有了全局大局观。
在探讨新方法之前,我们不妨先看看现有系统的症结所在。目前的端到端自动驾驶模型通常将导航信息简化为几个简单的离散指令,比如“左转”、“右转”或“直行”。这种“一刀切”的做法虽然简单,但在复杂的真实路况中却漏洞百出。

图1 | 传统驾驶指令的消融实验。该图清晰展示了对输入给模型的驾驶指令进行干扰后,模型性能的变化。令人惊讶的是,即使将指令替换为随机方向,甚至完全移除指令,模型在DAC(可行驶区域依从性)和PDMS等核心指标上的表现依然坚挺,证明现有模型并未有效利用这些导航信息。©【深蓝 AI】编译
正如上图所示,当研究人员在实验中故意向模型输入错误的导航指令时,模型的规划性能几乎没有受到影响。这说明模型在推理时,其实是在“无视”导航指令,转而过度依赖摄像头拍到的局部画面来“猜”下一步该怎么走。
进一步分析发现,这种现象的根源在于传统指令的标注方式过于死板。它们往往依赖固定的时间或空间窗口,一旦遇到环岛这种需要连续变向的场景,或者需要提前很远就开始规划变道的超视距场景,简单的“左转”或“直行”就会让模型陷入混乱。

图2 | 传统驾驶指令标注的局限性。左图展示了在环岛场景中,由于空间位移的延迟,直行意图被错误标注为“左转”;右图则揭示了在超视距场景下,简单的“直行”指令无法让模型理解前方需要变道的复杂行为,导致因果混淆。©【深蓝 AI】编译
研究团队从真实世界的导航软件中汲取灵感,提出了连续导航引导(Sequential Navigation Guidance, SNG)框架。

图3 | SNG-VLA整体框架与数据构建流程。上方的蓝色框展示了基于Qwen2.5-VL自动化构建SNG-QA数据集的流水线;右侧的红色框展示了SNG-QA将推理过程分解为全局和局部规划的样本示例;下方的绿色框则是SNG-VLA模型的架构,通过路径编码器和视觉编码器等多模态融合,最终由Transformer骨干网络自回归输出规划轨迹。©【深蓝 AI】编译
SNG框架巧妙地将导航信息拆解为一静一动两个维度:静态的全局路径(Navigation Path)相当于给模型画出了一条未来40米内的“参考线”,约束其长期的行驶方向;动态的实时引导(Turn-by-Turn, TBT)则包含了当前和未来的动作提示,为模型提供了实时的决策逻辑。
为了让模型学会如何消化这些丰富的导航信息,团队基于大模型自动化构建了一个包含约10万个样本的SNG-QA数据集。这个数据集的巧妙之处在于,它将驾驶行为推理拆解成了三个循序渐进的阶段:先总结全局导航信息,再结合局部感知进行因果解释,最后才生成轨迹点。这种“链式思考”极大地提升了模型规划的合理性。
在模型设计上,团队采用了基于大语言模型架构的SNG-VLA。它不仅能看懂前视图像,还能听懂TBT文本指令。为了处理那条“参考线”,模型还专门引入了一个路径编码器。值得一提的是,为了防止模型像以前一样对自车状态产生过度依赖,研究人员还巧妙地加入了一个状态丢弃编码器(SDE),强迫模型多去关注外部的导航和视觉信息。
在闭环基准测试中,SNG-VLA展现出了压倒性的优势。相比于此前的经典模型,SNG-VLA的驾驶得分大幅提升了46.6%,任务成功率更是飙升了119.4%。在更贴近真实世界的数据集上,SNG-VLA同样表现不俗,在可行驶区域依从性(DAC)这一关键指标上拿下了96.5的SOTA成绩。

图4 | 真实世界场景的轨迹预测对比。左侧的环岛场景和右侧的弯道场景中,传统的Transfuser模型(黄线)和加入了SNG的Transfuser(红线)均出现了不同程度的轨迹偏移,而SNG-VLA(蓝线)则凭借对导航信息的深刻理解,精准贴合了理想轨迹。©【深蓝 AI】编译
定性分析进一步证实了SNG的威力。在面对环岛这种让传统模型“头疼”的场景时,SNG-VLA能够准确理解“进入环岛并直行”的复合指令,规划出平滑且安全的轨迹。

图5 | 噪声指令对模型推理的干扰。左侧十字路口场景中,当输入错误的“左转”指令时,传统模型被严重误导;右侧环岛场景中,错误的“右转”指令甚至导致模型规划出逆行的危险轨迹。这反向证明了提供准确、连续导航信息的重要性。©【深蓝 AI】编译
有趣的是,消融实验揭示了一个最佳的“导航配方”:在车辆前方40米范围内,每隔10米采样一个导航路径点,配合TBT实时信息,能激发出模型的最强性能。点太密了会束缚模型的避障能力,点太疏了又起不到指引作用。

图6 | SNG-VLA在真实车端平台的表现。模型不仅能输出精准的轨迹,还能以自然语言的形式,同步输出其背后的全局与局部规划逻辑。例如在右转时,模型会明确提示“保持中速,遵循左转车道线,并注意右侧的电动车和施工区域”,展现出极高的可解释性。©【深蓝 AI】编译
这篇论文的价值,不仅在于刷榜了一个新SOTA,更在于它像一面镜子,照出了当前端到端自动驾驶领域的一个“盲区”——我们一直在堆算力、扩模型,却忽视了模型到底有没有真正理解那些最基础的输入信息。SNG-VLA的成功证明,将高维度的全局导航意图与底层的局部像素感知进行深度融合,是通往高阶自动驾驶的必由之路。
客观来看,SNG-VLA虽然在导航理解上迈出了一大步,但在极端的动态博弈场景(如激烈的加塞超车)下,其表现仍有提升空间。过度依赖预定义的导航路径,是否会在遭遇修路改道、GPS信号丢失等突发状况时,导致系统缺乏足够的临场应变能力?
在“重感知、轻地图”成为行业共识的当下,如何在这种强导航依赖与无图化趋势之间找到最佳平衡点,或许是未来研究需要解答的下一个难题。
编辑|阿豹




· 计划周期:深蓝学院将以3个月为一个周期,建立工程师&学术研究者的「同好社群」
· 覆盖方向:自动驾驶、具身智能(人形、四足、轮式、机械臂)、视觉、无人机、大模型、医学人工智能……16个热门领域
扫码添加阿蓝
选择想要加入的交流群即可
(按照提交顺序邀请,请尽早选择)
👇
