文末阅读原文可直接跳转原论文


本文提出了AutoDriDM,一个专注于决策能力评估的自动驾驶视觉语言模型基准测试框架,通过多层次任务设计揭示了当前模型在感知到决策过程中的能力边界,并引入了自动化分析模型以支持大规模推理追踪标注。



Artificial Intelligence (cs.AI), Computer Vision and Pattern Recognition (cs.CV), Robotics (cs.RO)自动驾驶技术面临复杂场景下的可靠感知和安全决策挑战。近年来,视觉语言模型(VLMs)展示了强大的推理和泛化能力,为自动驾驶提供了新的可能性。然而,现有的基准测试和度量标准过于强调感知能力,未能充分评估决策过程。
AutoDriDM是一个决策为中心的渐进式基准测试框架,包含6,650个问题,覆盖三个维度:对象、场景和决策。该框架旨在评估主流VLM在自动驾驶中的感知到决策能力。
使用nuScenes、KITTI和BDD100K数据集,涵盖6,650个问题,分为零样本和少样本学习设置。
与基线模型相比,AutoDriDM能够更全面地评估VLM在自动驾驶中的表现,特别是在决策能力和鲁棒性方面。
通过消融实验,验证了不同参数规模对模型性能的影响,发现中间规模模型可能存在推理能力和任务需求不匹配的问题。
AutoDriDM为研究VLM的能力边界和推理模式提供了系统的基础,有助于构建更可靠的自动驾驶系统。
未来的研究可以进一步扩展数据集范围,改进任务格式,以及探索更多类型的VLM模型,以提高自动驾驶系统的可靠性。
自动驾驶是一个极具挑战性的领域,需要在复杂场景中实现可靠感知和安全决策。最近的视觉语言模型(VLMs)展示了推理和泛化能力,为自动驾驶开辟了新的可能性;然而,现有的基准测试和度量标准过分强调感知能力,未能充分评估决策过程。本文提出了AutoDriDM,一个以决策为中心的渐进式基准测试,包含三个维度——对象、场景和决策的6,650个问题。本文评估了主流VLMs,以界定自动驾驶中的感知到决策的能力边界,并且相关性分析揭示了感知和决策性能之间的弱对齐。本文进一步进行了模型推理过程的可解释性分析,识别出关键失败模式,例如逻辑推理错误,并引入了一个分析器模型来自动化大规模标注。AutoDriDM弥合了以感知为中心和以决策为中心的评估之间的差距,为开发更安全、更可靠的适用于实际自动驾驶的VLMs提供了指导。
自动驾驶是在多样且安全至关重要的条件下运作的一个极具挑战性的领域。研究沿着两个主要范式进行。第一个是模块化管道,将感知、预测/规划和控制分开(Schwarting等人,2018;Badue等人,2021;Paden等人,2016)。第二个是端到端学习,直接将原始传感器输入映射到航点或控制命令(Tampuu等人,2022;Chen等人,2024a;Codevilla等人,2018)。尽管这两种方法都取得了显著的成功,但模块化系统由于误差传播仍然脆弱,而端到端方法通常缺乏可解释性和关于因果结构的稳健推理(Badue等人,2021;Chib和Singh,2023)。
大型语言模型(LLMs)的发展使得指令跟随和推理能力取得了显著进步(OpenAI等,2024;Touvron等,2023;DeepSeek-AI等,2025)。与此同时,视觉-语言模型(VLMs)在零样本迁移和基于语言的推理方面也展现出强大的能力(张等,2024;沈等,2024;卢等,2025)。这些特性突显了VLMs在自动驾驶领域的潜力;已经提出了基于VLM的特定领域的自动驾驶系统(周等,2024a;田等,2024;傅等,2024b;尤等,2025),展示了不断增加的研究活动和多样化的研究方法。
尽管有这些进展,当前的方法仍面临一些限制。基准测试作为方法论进步与实际部署之间的桥梁,揭示了模型的失败之处。首先,现有的VLM训练主要集中在感知上,忽视了驾驶场景中的决策需求(周等,2024b),而这是实现全自动驾驶的核心组成部分。其次,许多基准测试定义了独立的度量标准,将感知与应支持的决策分离,限制了对模型真实能力边界的评估(谢等,2025)。第三,评估通常只考虑最终答案,使得推理错误成为一个黑箱,这限制了对性能差距的分析(李等,2025;郭等,2024)。
为了解决这些问题,本文引入了AutoDriDM(图1),这是一个以决策为中心的基准测试,用于评估自动驾驶中的VLMs。首先,AutoDriDM由nuScenes、KITTI和BDD100K构建,并遵循一个三级协议,任务复杂度逐渐增加——目标、场景和决策。该基准测试包含六个评估指标下的6,650个问题,并根据场景风险进行分层评估。为了进一步评估鲁棒性,本文整理了60对视觉上相似的场景。其次,本文评估了主流的开源和闭源VLMs,以表征它们在零样本和少样本设置下的能力边界,并通过相关性分析量化感知与决策之间的跨层级依赖关系。此外,本文研究了Internvl模型的扩展行为,识别关键转折点。第三,本文收集并标注了多个VLMs的推理轨迹,以系统地分析其推理和失败模式。基于此分析,本文微调了一个轻量级分析器模型,自动标记新的轨迹,从而实现大规模评估并提供模型优化的见解。

图1:AutoDriDM概述。框架分为三个阶段:(左)数据源及过滤,(中)逐步评估协议,(右)可解释性和自动化分析。
本文的工作做出了三个关键贡献:
• 本文引入了AutoDriDM,这是一个具有逐步三级协议——目标、场景和决策——的以决策为中心的基准测试,涵盖六个评估指标和风险感知划分下的6,650个问题。• 本文评估了主流VLMs,分析了感知-决策依赖关系,在视觉上相似的场景中研究了鲁棒性,并调查了Internvl模型的扩展行为,以识别关键转折点。• 本文收集并标注了VLMs的推理轨迹,分析这些轨迹以揭示推理和失败模式,并微调了一个模型以自动化推理轨迹标签,从而实现大规模可解释性。
近期在大语言模型(LLMs)方面的进展加速了视觉语言模型(VLMs)的发展(OpenAI等,2024;Touvron等,2023;DeepSeek-AI等,2025;Zhao等,2023)。VLMs 利用大规模图像-文本预训练和指令调优,展示了强大的指令跟随、零样本泛化和上下文推理能力(Li等,2023;Wang等,2024a;Lu等,2025)。它们在自动驾驶领域的场景理解、交互推理和端到端规划方面得到了广泛研究(Zhou等,2024a;Tian等,2024;Xu等,2024;Sima等,2025;You等,2025;Fu等,2024b;Gopalkrishnan等,2024)。然而,当前的VLMs仍然存在幻觉、脆弱的推理以及在复杂场景中忽略关键视觉线索的问题(Guan等,2024;Yu等,2024;Bai等,2025)。
对于大语言模型(LLMs),主流的基准测试套件通过更具有挑战性的协议和对抗性设计来评估知识、推理以及数学/编程能力(Wang等,2024b;Rein等,2024;Sakaguchi等,2021;Clark等,2018;Chen等,2021;Patel等,2024)。对于视觉语言模型(VLMs),通用评估旨在衡量感知、接地等方面的综合能力,

图2:从本文的问答对中收集的关于自动驾驶的词云。
OCR/文本推理和幻觉鲁棒性(Fu等,2024a;Liu等,2024a;Yu等,2024;Yue等,2024,2025;Guan等,2024;Liu等,2024b;Tang等,2025;Mathew等,2021;Zhang等,2025)。在自动驾驶领域,最近面向VLM的基准测试提供了用于感知–规划评估的驾驶场景和任务(Guo等,2024;Li等,2024,2025;Sima等,2025);然而,大多数采用独立的评估指标,对模型推理轨迹的分析不足。
本节介绍了本文为评估自动驾驶中VLM而构建的全面决策中心基准框架。
数据来源。本文从三个广泛使用的驾驶数据集——nuScenes、KITTI和BDD100K(Caesar等,2020;Geiger等,2013;Yu等,2020)——构建基准,重点关注正向图像。这些数据集的整合涵盖了多个地区和多样的驾驶环境。这种多样性减轻了数据集特定的偏差,并增强了对现实世界驾驶条件的覆盖。由于本文为同一驾驶场景附加了多个任务特定的问题,一张图像可能对应于不同任务中的多个问题;附录A.1总结了数据集概况(地区、场景类型和任务覆盖范围)以及图像/QA使用统计信息。
数据过滤。为了质量控制,本文采用了基于相似性的过滤程序。本文使用预训练的ResNet-50(He等,2016)计算图像嵌入,采用全局平均池化表示,并根据余弦相似性构建候选对。超过0.9相似度阈值的对被视为近重复案例并被移除以减少冗余。
本文采用三级协议,包括目标、场景和决策,这些级别是逐步结构化的而不是独立的:感知支持场景理解,这两个阶段共同影响决策制定。
概述。本文在每个级别定义了两个指标,从而建立了一个目标–场景–决策评估流水线。所有指标都是选择题:目标和决策为单选题,而场景为多选题。该基准包含6.65K个问题,涵盖这三个级别。图2展示了本基准的词云。所有六个任务的详细标注模板见附录C.5。
目标级别评估感知:(目标-1)识别图像中最影响决策的对象;(目标-2)确定指定对象的状态。场景级别旨在评估场景级别的理解:(场景-1)识别天气和照明;(场景-2)识别可能影响驾驶决策的特殊场景因素(例如,道路施工、事故)。决策级别旨在评估决策能力:(决策-1)选择场景中自车的最佳行动;(决策-2)评估指定且可能是次优行动的安全性。这两个任务都受到来自目标-1/2和场景-1/2的关键感知和上下文信号的影响,为决策提供基础和约束条件。本文总结了六个任务的设计意图,见附录A.2。
标注协议。为了确保标注准确性,所有问答对均由人工标注员手动标注。为了确保标注一致性,每项内容由两名经验丰富的驾驶员独立标注。在存在分歧的情况下,第三名人类仲裁员进行裁决,并相应地分配最终标注。
高风险场景设计。由于高风险场景稀缺,收集这些情况下的足够数据可能具有挑战性,并可能限制VLM的预训练。然而,这些场景对于安全驾驶至关重要,因此本文对其进行评估以测试VLM的泛化能力。
每个场景由两名专家标注员使用五点风险量表(1:最小,5:严重,见附录A.3)进行评分。平均分作为最终评分,评分为4或更高的场景被指定为高风险场景,总共产生1.6K个问题用于分析。
相似场景鲁棒性。人类可以识别任务相关的信息并忽略冗余线索,从而在视觉上相似的场景中做出准确的决策。为了测试模型是否具备这种细粒度的能力,本文基于第3.1节中的相似性过滤构建了60对近重复图像。本文使用单张图像的准确率和联合准确率(一对图像都被正确回答的概率)来评估模型在Decision-1上的表现。通过与个体准确率的平方基线进行比较,评估模型的决策是否反映了因果理解而非表面特征关联,从而评估VLMs在因果推理中的鲁棒性。代表性近重复示例见附录A.4。
相关性分析。得益于本文的三级设计(对象、场景和决策),该设计建立了一个渐进而非独立的结构,本文通过计算每个模型的所有任务得分之间的成对皮尔逊相关性,探索感知和决策维度上模型行为的内部一致性。这一分析揭示了一种能力的提升是否与其他能力的增益或权衡同时发生。所得的相关性矩阵为VLMs在认知阶段内的多模态推理提供了证据。
本文通过分类错误来分析VLMs的推理过程,并微调一个轻量级模型以扩展分析,实现自动化评估。
模型推理。链式思维(CoT)推理已被证明可以提高问题解决能力(Wei等人,2022年),并揭示决定最终选择的中间依赖关系。为了利用这些优势,本文指示模型在一个回合交互中生成一个结构化的CoT理由,该理由被包围,随后是被. . . 包围的决策。这种配置有助于在对象、场景和决策层面上进行细粒度分析,并允许更精确地评估模型的上限能力。
错误类别。本文定义了九种错误类别(E1–E9),以表征决策过程中的失败情况,遵循附录B.1中的分类法。三个主要类别是(E1)逻辑推理错误(推理链违反因果关系),(E2)语义特征遗漏(模型忽略或误判语义/视觉线索,如转向灯),以及(E3)模型幻觉(模型发明不存在的对象、属性或关系)。其余类别是(E4)模态不平衡,(E5)空间关系误判,(E6)有限逻辑推理,(E7)泛化不足,(E8)决策边界不稳定,以及(E9)目标优先级误判。
自动化推理模式标注。手动分析可解释性过程资源密集且限制了可扩展性。为了实现自动化的大规模评估,本文训练了一个具有70亿参数的轻量级分析器模型来识别错误模式。该模型的输入包括:(1)图像、问题、选项和真值答案;(2)测试模型的推理过程和最终答案。它输出一个或多个来自九个定义错误类别的错误模式标签,或者在没有错误的情况下输出无错误标签。这种方法使错误类型识别具备可扩展性,并支持对模型推理进行系统性评估。分析器的输入/输出格式和提示模板在附录B.2中提供。
本文分析了总体结果以评估一般能力优势。GPT-4.1在整体性能上排名第一,而在开源模型中,Qwen(72B)表现出最高的平均性能。尽管闭源模型继续展示出优越的泛化能力和稳定性,但最近的开源系统显示出日益增长的竞争性。GPT-4.1的代表性失败案例见图3。完整的零样本结果见表1。实验设置见附录C.1。
结果显示了一种明显的分层:大规模模型通常在Object-1/2上实现更高的准确性,并且在Scene-1上的表现更加一致,而参数少于10B的模型表现出较高的性能差异——有些在Scene-1上得分很高,但在其他任务上的结果却不稳定——这突显了模型规模对于多任务稳定性的重要性。在Scene-2上,大多数模型的准确性显著降低,表明当前的VLM难以实现稳健的场景理解,并且经常无法准确解释那些应限制下游决策的不具代表性的环境。对于Decision-1和Decision-2,大多数VLM仍然缺乏在感知任务中观察到的稳定性,并在模糊条件下表现出高度的变异性,表明当前的模型仍不足以应对复杂的驾驶场景决策。

图3:GPT-4.1 失败案例。六个子图展示了GPT-4.1在不同任务中的失败案例。每个子图包括给定的图像、问题、模型的回答、真值以及模型的解释。
本文进一步分析了零样本设置下的高风险场景。尽管高风险场景相对较少,可能会限制VLM的预训练,但平均分数高于所有场景,主要是因为领先模型在决策任务上有了显著提升。同时,与所有场景相比,在高风险条件下,对象级别的识别往往有所改善,但Scene-2仍然是所有模型面临的重要挑战。完整的零样本高风险结果见附录D.1。
相对于所有场景,高风险场景进一步扩大了大模型和小模型之间的性能差距。这主要是因为危险场景对模型的泛化能力提出了更大的挑战。大模型表现出更稳健的决策能力:显著的对象更容易被识别,决策集中在常见的安全策略上。相比之下,小模型未能利用这些特定场景的优势,并显示出有限的任务间整合能力。虽然大模型在高风险条件下有所改进,但当前的能力仍不足以直接部署在关键安全环境中。
本文分析了少样本提示对整体性能和各个任务维度的影响。从平均性能来看,某些模型表现出小幅提升,而其他模型则出现性能下降或非单调趋势,即在1-shot时初始下降,随后在更高样本数量时部分恢复。性能提升主要出现在较大模型中,而较小模型通常表现出性能下降或波动。在任务层面,某些任务保持相对较高的性能,而需要跨粒度整合的任务,例如Scene-2和Decision-2,往往导致更多错误,并可能导致显著的性能下降。所有场景/高风险趋势在0/1/2/5-shot提示下的概览见附录D.2(图9和图10);全面的每样本结果总结见附录表8和表9。
表1:所有场景评估(0-shot)

少样本提示在不同模型上产生不同的结果,表明在不确定性下的决策可能不会始终受益于示例。理论上,少量示例可以提供注意力锚点和决策边界,可能使模型获得适度提升。然而,当对齐脆弱或先验偏置较强时,少样本示例可能导致跨任务不稳定或性能下降。以Decision-2为例,少样本提示可以使决策分布偏向示例先验。与0-shot提示相比,选择代表性示例对于增强跨任务能力至关重要。
为了研究模型行为在各层级上的内部一致性,本文计算了在所有和高风险场景下Object (O)、Scene (S)和Decision (D)维度之间的皮尔逊相关系数。图4展示了Qwen-7B和-72B模型的相关矩阵。涵盖所有提示设置和场景类型的扩展相关矩阵见附录D.3(图15)。
对于每个模型,本文评估了单独决策任务(Decision-1)的准确性以及一对紧密相关的图像都被正确回答的概率(Decision-1(both))。如果一个模型依赖于任务相关的语义,联合准确性应该接近个体准确性的乘积;显著较低的联合性能表明共享但不相关的线索影响了决策。详细结果见附录D.5。
分析揭示了以下模式:几乎所有模型的联合正确率都低于预期的平方基线。例如,Llama(11B)和Llava(7B)显示出显著下降( 或 )。这一模式证实了小型模型倾向于重新组合感知元素,而没有真正评估哪些视觉组件与决策相关。较大模型表现出有限的鲁棒性,其中Llava(72B)在单独测试和配对测试中均达到最高性能。

图4:通义千问(70亿参数)和通义千问(720亿参数)的相关矩阵

图5:Internvl模型的“扩展行为”
跨任务的相关性通常较弱(大多为到0.2),只有与决策相关的任务(Decision-1/2)与目标识别表现出轻微的正相关,这表明对目标级别的线索依赖较少,而不是场景级别的理解。与7B相比,在正常条件下,72B表现出稍强的相关性。在高风险设置下,7B显示出更强的负相关(例如,Scene–Decision降至),表明一个任务的性能下降对应着更差的决策。相比之下,72B保持了更为平衡的相关性,负相关较少。
总体而言,这些结果表明当前的VLM难以将感知信息转化为决策。虽然扩展规模提高了稳定性并减少了任务之间的负面相互作用,但并没有显著增强跨任务耦合,这意味着感知和决策的更紧密集成可能需要超出模型规模的变化。
显著的个体和联合准确性之间的差距,特别是在较小的模型中,表明大多数系统无法识别因果驱动决策的对象或场景。这反映了固有的归纳偏见以及依赖组合推理而非因果推理。虽然增加规模部分提高了鲁棒性,但当前架构缺乏有效机制来抑制无关的感知先验,限制了可靠的视觉决策。
本文评估了Internvl系列参数大小的扩展行为。在传统的扩展定律中,模型性能随着参数大小的增加而提高,并且通常遵循近似对数趋势;然而,在本文的基准测试中,38B模型表现出明显的性能下降(图5)。这种异常现象在-shot设置下以及所有场景和高风险划分中均持续存在。
38B模型在推理过程上表现出偏差:与较小的模型相比,它展示了更结构化的多步骤推理,但相对于较大的模型,其推理链仍然不完整。例如,在Scene-2任务中,38B模型根据光照和天气条件等因素对选项进行分类,但假设每个类别中必须选择一个选项,即使没有正确答案也如此。这种过度约束的推理导致决策错误和性能下降。
这些观察结果对VLM评估具有重要意义。模型性能并不随参数大小单调增加,因为中间模型大小可能会出现推理能力和任务需求之间的不匹配。此外,分析推理链是识别系统故障模式所必需的。
本文对Qwen-7B和Qwen-72B模型进行了可解释性分析。结果如图6所示。结果显示,大多数模型的推理过程包含不同程度的缺陷。尽管整体准确性仍可接受,但推理过程往往不一致或有误。
图6揭示了不同大小模型之间误差权重分布的相对排名略有差异,但逻辑推理错误、语义特征遗漏和模型幻觉始终占据前三类错误——其中逻辑推理错误最为突出,表明当前的VLMs仍然难以执行连贯的多模态推理。
7B模型和72B模型的比较显示,72B模型没有表现出与决策边界不稳定相关的错误,而7B模型则存在此类问题,这表明较小的模型在处理边界条件(例如区分车道变换和转弯)方面受到限制。尽管逻辑推理错误仍然占主导地位,但在72B模型中其频率降低表明,增加模型规模可以提高推理能力。

图6:Qwen(7B)和Qwen(72B)的可解释性分析结果
表2:分析器模型和基线性能(%)

对于模型训练和评估,本文从之前评估过的模型、指标和样本设置中收集了大约1,680条推理轨迹。其中1,500条轨迹用于训练分析器模型,而180条轨迹保留用于评估。本文采用Qwen(7B)作为基础模型,并进行监督微调以根据预定义的错误模式对推理错误进行分类。
本文将微调后的7B分析器与主流基线进行了对比,如表2所示。本文的模型实现了最高的精确匹配率和最低的不匹配率,相对于包括Qwen(72B)和GPT-4.1在内的更大通用模型,表现更优。平均得分也是所有系统中最好的,表明在各种情况下标签质量的一致性。因此,分析器的输出适用于大规模辅助评估,并支持自动推理轨迹标注。
本文提出了AutoDriDM,一个用于评估VLM在自动驾驶场景中决策能力的基准测试。本文进行了针对多个VLM的系统实验,并得出以下结论:(1) VLM在目标感知方面表现出色,但这并未转化为决策能力,这反映在低相关性和较差的鲁棒性上,表明当前的决策能力不足以支持实际部署。(2) 尽管高风险数据稀缺且可能限制VLM的预训练,VLM在高风险场景中仍显示出更强的决策性能。(3) 虽然性能通常与参数规模成正比,但受限推理也可能降低模型的能力。(4) 即使选择的答案正确,其背后的推理往往存在缺陷;主要的失败模式包括逻辑错误、缺失语义特征和幻觉。(5) 本文微调的分析器模型可以支持大规模推理轨迹标注。该基准测试为研究VLM的能力边界和推理模式提供了系统的基石,并为构建更可靠的自动驾驶系统提供了见解。
本文的研究、基准测试和分析存在一些限制。(1) 数据范围:AutoDriDM由nuScenes、KITTI和BDD100K中的前视摄像头图像构建而成;它不包括多摄像头设置、多传感器输入(例如激光雷达、雷达)或视频时间信息,这限制了时间推理和遮挡处理。(2) 任务格式:本文仅采用单选或多选问题以减少歧义并实现客观评分,这可能会低估能够生成更丰富自由形式解释的模型,并可能导致答案先验。(3) 模型覆盖范围:本文评估了代表性的开源和闭源模型以及Internvl规模,但供应商更新和推理设置(例如温度、生成长度)可能会影响结果。
本文仅使用具有研究许可的公共数据集。数据可能包含公共场所中的行人、车辆和建筑物;未尝试识别个人,也未收集新的个人数据。标注员为了解任务要求的团队成员。该基准测试仅用于离线研究,不得用于确定任何驾驶系统的道路适用性;将提供显著免责声明。为减轻误用风险,如选择性引用或过拟合,本文将发布完整协议并开源相关代码。