
AutoScenario 的核心逻辑是 **“把真实世界的复杂信息翻译成模拟器能读懂的测试场景”**,整个过程像一条 “多步骤流水线”,靠多模态大模型(能处理文字、图片、视频的 AI)和仿真工具配合完成,具体分 4 步走:
不管输入的是文字(比如测试需求、事故报告)、图片(道路实拍)还是视频(行车记录仪画面),先让 AI(多模态大模型)把它们变成统一格式的文字说明。
有了统一的文字描述后,AI 会调用专门的 “组件生成器”,把场景拆成三个关键部分,就像搭积木前准备好零件:
AI 会直接生成代码,控制两款主流仿真工具(SUMO 负责交通流、CARLA 负责 3D 可视化),把前面的 “零件” 组装成可运行的测试场景:
整个过程中,AI 会通过 “文本嵌入比对” 检查生成的场景是否符合原始输入(比如图片里有 3 个施工锥,场景里就不能多也不能少),还会用 “思维链(CoT)” 推理纠正错误(比如避免出现 “车道没有宽度”“转弯半径不符合物理规律” 等问题)。
AutoScenario 本质是 “自动驾驶的虚拟测试场”,核心用途是生成 “罕见但危险” 的测试场景(比如突发闯红灯、施工占道、路口混行),具体应用有 3 类:
这是最核心的应用。传统测试很难遇到 “行人突然冲出施工区”“两车在无信号路口抢行” 这类罕见危险场景,而 AutoScenario 能批量生成这些场景,测试自动驾驶汽车(AV)的应对能力 —— 比如能否及时刹车、避让,从而发现系统漏洞。
开发者只需用简单文字描述需求(比如 “测试自动驾驶在分叉路的转弯性能,要有其他车辆占道干扰”),AI 就能生成符合要求的场景,无需手动编写复杂代码,大大降低测试门槛。
虽然 AutoScenario 表现出色,但仍有 3 个关键方向需要优化:
===========================================
******------------------------华丽的分割线----------------------******
===========================================
以下是文章正文部分详细内容介绍:
为保障自动驾驶系统的安全性与可靠性,极端场景在仿真环境中探究系统在罕见、高难度工况下的表现具有关键作用。然而现有方法往往难以满足多样化的测试需求,也无法有效适配那些高度贴合现实的新型高风险场景。针对这一难题,我们提出了 AutoScenario 框架 —— 一款基于多模态大语言模型的真实极端场景生成工具。该框架将多源真实世界中的安全关键数据转换为文本表征,依托大语言模型丰富的通用知识与先进的推理能力,实现关键风险因素的泛化提取;同时整合城市交通仿真工具 SUMO 与自动驾驶仿真平台 CARLA 的功能,简化并执行大语言模型生成的代码。实验结果表明,AutoScenario 能够生成贴合实际、具有测试挑战性的场景,且可精准匹配特定的测试需求或文本描述。此外,我们还验证了该框架可基于包含危险工况的多模态真实世界数据,生成多样化、创新性的测试场景,借助大语言模型强大的泛化能力,有效模拟各类极端场景。
当前,安全性仍是自动驾驶车辆在公共道路大规模落地的核心障碍。提前发现并测试极端场景,有助于保障自动驾驶车辆的安全,加快技术研发周期。但随着自动驾驶性能的不断提升,其技术突破的难度也日益加大,原因在于极端场景的出现频率更低、表现形式也更为多样 [28]。因此,界定并识别最具测试价值的极端场景,对于自动驾驶技术的进一步提升至关重要。
学界已针对该问题开展了大量研究。例如,CODA [23] 从大规模自动驾驶数据集中精心挖掘极端场景 [5,17,30],但该方法过度依赖自动驾驶车辆采集的真实行驶数据,不仅成本高昂,数据覆盖范围也存在局限;同时,重放预采集数据的方式无法与被测自动驾驶车辆产生动态交互,大幅降低了测试效果。另一方面,研究人员也探索了多种安全关键场景的合成方法,包括基于规则 [4,34] 和基于数据驱动的技术 [10,36,42]。但这类方法因依赖既定场景的初始条件,生成的场景多样性不足;此外,通过预设规则或对抗学习生成的场景往往缺乏现实性,因施加的扰动可能偏离符合现实的行为模式,进而降低测试过程的有效性。
与此同时,基于抽象需求实现灵活场景生成的有效控制机制,其研发进展较为缓慢。这一机制的研发至关重要,因为开发者对场景的构思往往较为宏观,而仿真实验却需要道路几何结构、车辆精准定位等精细化配置。若能通过语言描述实现场景生成的可控性,将成为衔接这一鸿沟的自然解决方案,让基于场景的测试更具实用性,同时加快自动驾驶系统的性能评估进程。
然而,构建这类基于文本条件的生成机制存在诸多挑战:不仅需要对静态环境要素和智能体行为进行全面建模,还需将自然的叙事语言映射为精细化的配置参数。以海量互联网数据为训练基础的大语言模型和视觉 - 语言模型的兴起,为解决该问题提供了可行思路 —— 这类模型已被证实具备卓越的学习、推理和复杂问题求解能力,其应用领域覆盖医疗、教育、金融、工程等多个行业 [7,19,22,27],展现出显著的技术优势。
受上述技术进展的启发,同时为满足真实、多样化安全关键场景的测试需求,我们研发了 AutoScenario 框架。如图 1 所示,这是一套具备高度可控性的全自动化流程框架。该框架通过提示词工程,整合开源交通仿真工具 SUMO [29]、由虚幻引擎驱动且拥有高保真数字资产的开源仿真平台 CARLA [13,14],以及数据驱动的深度学习模型,生成高度还原现实环境、包含各类核心要素的多样化场景。
本研究的主要贡献如下:
安全问题是自动驾驶车辆大规模落地的首要阻碍,学界已投入大量精力通过测试识别并消除系统中的不安全因素 [15,49,50]。基于场景的测试方法已被证实,能有效评估自动驾驶车辆在极端场景下的表现 [31]。但由于现实世界的物理环境和交通状况具有固有的复杂性,生成贴合实际、合理的极端场景仍是一项重大挑战。有研究尝试通过重放真实场景采集的行驶数据解决场景现实性问题,但该方法无法与被测自动驾驶车辆产生真实的动态交互。
目前,生成高挑战性极端场景的方法主要分为两大类:数据驱动生成法和知识驱动生成法。数据驱动模型依托已采集的数据集提取信息 [25,38,47],例如 NeuralNDE [46] 采用结合安全映射的 Transformer 网络生成符合现实的智能体行为,实现了与真实行为分布的层面匹配;STRVE [35] 学习基于图结构的条件变分自编码器作为交通先验模型,优化各智能体的行为以诱导其与基于规则的自动驾驶规划器发生碰撞;RealGen [12] 则采用编解码架构和基于检索的上下文学习方法,合成真实的交通场景。但这类方法仅能基于现有数据集生成场景,无法针对特定测试目标,生成可控的定制化场景。
知识驱动生成法是另一类研究方向,该方法将外部知识融入场景生成过程,也是机器学习领域的发展趋势。Klischat 和 Althoff [20] 采用进化算法,通过操控周边车辆缩小自动驾驶车辆的可行驶区域;Shiroshita 等人 [37] 强调场景中行为多样性和高驾驶操作难度的重要性,在其强化学习方法中设计了专用的策略集选择器,以平衡这两个要素;Ding 等人 [11] 将领域知识以一阶逻辑的形式构建为树状结构,实现了语义对抗生成(SAG)。但这类知识驱动方法生成的场景,普遍存在现实性不足的问题。
自问世以来,多模态大语言模型已在自动驾驶系统中得到广泛应用 [8,9,41,45],尤其是在生成多样化、真实的测试场景方面,成为自动驾驶测试与评估的关键技术 [6,24,26]。例如,ChatScene [48] 基于大语言模型,从已有的 Scenic 场景库 [16] 中生成测试场景;ChatSim [44] 借助外部数字资产,生成照片级真实的 3D 驾驶仿真场景。但这两种方法的场景多样性均存在局限:ChatScene 受限于固定的场景库,而 ChatSim 仅能修改现有场景,无法从零开始创建新场景。
大语言模型也被应用于极端场景的生成研究:CRITICAL [40] 利用大语言模型更新场景配置,优化自动驾驶训练用的关键场景,但该方法仅在高速公路场景中完成验证 [21],无法适配不同的交通状况和道路布局;LEADE [39] 将大语言模型与自适应遗传算法结合,实现安全关键场景的搜索,但该方法假设背景车辆和行人严格遵守交通规则,可能忽略由交通参与者异常行为引发的安全关键场景;CTG++[51] 利用大语言模型将用户查询转换为损失函数,引导扩散模型生成符合查询要求的轨迹,但该方法仅能在预设道路地图和特定初始条件下,对智能体行为进行调整;LLMScenario [6] 基于少量的场景描述,利用大语言模型生成简洁的智能体轨迹,为场景工程提供支持,但该方法同样仅适用于高速公路场景,在更复杂的交通环境中仍需进一步研究。
基于安全关键场景的测试是自动驾驶领域的核心紧迫难题,该领域需要大量多样化、高度可控的测试场景,而现有方法仍无法充分满足这一需求。本研究旨在依托大语言模型,通过文本、图像、视频等多模态输入,实现安全关键场景的可控、高效生成,同时保证场景的多样性。
本节将详细阐述 AutoScenario 的核心方法,该框架是由多模态大语言模型驱动、实现多模态输入到极端场景生成的工具。首先将为核心组件定义简洁的符号表示,随后介绍系统的整体流程,接着阐释通用解释器的关键设计,最后说明如何整合各组件实现极端场景的生成。
我们将整个场景生成过程建模为一个编码 - 解码框架:无论输入数据的模态如何,首先将其编码为通用、可解释的语言空间表征,再通过多种代码解码,指导仿真工具精准重构具体的场景。
设SE为真实世界场景,其包含但不限于道路、各类交通参与者、静态物体、交通标志、天气状况等交通要素。在大语言模型的辅助下,构建统一的语言描述El={Eroad,Eobjects,Eagents,Eweather},该描述涵盖道路结构、静态物体、智能体、天气状况等细节信息,整个生成过程均基于该统一的语言空间展开。环境状态到语言描述的映射关系可表示为:

在解码阶段,我们借助多个由大语言模型驱动的模块,并结合仿真工具生成最终场景。例如,路网生成器结合语言描述El和领域知识k,根据给定约束生成可行的车道配置;智能体生成器v基于语言描述L、路网结构n和领域知识k,生成智能体的行为模式;同理,物体生成器o依据L、n和k,在环境中完成静态物体的布局。最终,场景生成器S整合路网、智能体和静态物体,生成最终场景s,如公式 (1) 所示:

其中,∼表示从对应分布中采样。
为获取目标函数的嵌入特征,我们采用 text-embedding-ada-002 模型 [32] 从描述文本中提取嵌入向量,并通过余弦相似度计算两个嵌入向量间的距离。

场景生成框架如图 2 所示,该流程支持多模态输入,包括但不限于:文本形式的用户需求、任意视角的图像、车辆行驶视角的视频。这些输入数据将送入由大语言模型驱动的专用解释器,生成标准化的场景描述 —— 该过程会从输入中提取核心要素,并补充多样化的细节信息,具体细节见 4.2 节。
我们通过定制化的注意力机制对多模态输入进行预处理,基于真实世界的输入信息生成统一的场景描述:对于简短的用户需求,对其进行扩展以生成更详细的描述;对于事故报告这类具有固定叙事风格的长文本,将信息按道路、静态物体、智能体、天气四个维度重构;对于图像输入,采用思维链(CoT)[43] 方法提取分层的风险相关信息;对于视频输入,先对视频进行下采样,再通过基于记忆的处理方式,从输入场景中重构完整的路网结构和运动连续性信息。相关的详细提示词见附录。
道路结构在场景生成和识别极端场景关键风险因素中起到核心作用,本研究采用两种方法实现路网生成:第一种是利用解释器生成的语言描述El调用路网生成器,输出 XML 格式的路网文件;第二种是通过 GPS 输入从开源地图平台 OpenStreetMap [3] 中获取真实的道路几何结构,并转换为 net.XML 格式。智能体生成器基于Eagents生成各类交通参与者,包括行人、骑行者,以及卡车、乘用车等各类车辆;借助大语言模型完成智能体在场景中的定位,并为其分配合理的行驶速度,随后结合数据驱动的智能体模型开展闭环仿真,还原特定交通条件下类人的行为模式和交互过程。而物体生成器则负责创建车道标线、交通标志、护栏、交通锥等静态要素,这类要素在场景中保持不变。
如图 3 所示,本研究借助大语言模型将 SUMO、CARLA 和数据驱动模型无缝集成,共同生成最终的测试场景。

本节将从定量和定性两个维度评估 AutoScenario 框架的性能:首先验证其生成真实、多样、可控场景的能力;随后展示其基于多模态输入生成安全关键场景,用于自动驾驶测试的实际应用,并通过基于大语言模型的自动驾驶车辆的表现,定量评估生成场景的测试挑战性;最后通过消融实验,验证框架各核心组件的作用。
实验结果表明,在合理的提示词引导下,整个系统生成的场景具备高度的可控性和多样性。

图 5 展示了两组基于图像解释器的生成示例,解释器能有效识别路网配置、车辆数量与颜色、施工锥等障碍物在内的场景核心要素,这些信息随后由组件生成器和场景生成器无缝转换为三维仿真场景。
为系统评估场景生成的多样性和保真度,我们定义了一系列指标,分别衡量生成过程中两个核心模块(解释器和生成器)的性能:
相关实验细节和指标定义见附录。

表 1 的结果显示,AutoScenario 生成有效场景的成功率较高,且在大多数情况下,能根据解释器生成的描述,精准还原指定数量、颜色的车辆,以及道路障碍物的类型。场景生成失败的主要原因包括:路网生成过程中关键词格式错误(如多余的 #符号)、蓝图名称重复错误(如 vehicle.omni.vehicle.omni.bus)。考虑到提示词的复杂性,这样的成功率和准确率已属优异结果。
本系统的另一大特点是生成场景的多样性和复杂性。为评估路网的复杂性,我们计算了生成路网中车道总数、边数和路线长度的均值与标准差。表 2 的结果显示,各场景集的上述指标分布范围较广,证明系统生成的场景具备稳定的多样性。

AutoScenario 框架依托多模态解释器,可基于文本、图像、视频等多源输入生成安全关键场景。该框架在生成场景时,会突出冲突场景的核心要素,同时对其余要素进行泛化处理,从而实现输出场景的多样化。
文本解释器的一项应用是基于事故报告还原碰撞发生前的关键瞬间。

图 4 展示了两个典型示例,清晰呈现了车辆之间、车辆与弱势道路参与者之间存在的安全关键交互行为。此外,AutoScenario 框架还支持用户以抽象形式描述测试需求,图 7 为相关演示效果。

图 7 AutoScenario 基于用户需求的场景生成流程:左侧为用户指定的测试需求,中间为文本解释器生成的多个场景描述(省略无关内容,核心要素以粗体突出),右侧为基于各描述,由 CARLA 与大语言模型采样生成的仿真场景。
研究人员通过合理设计提示词,将视觉 - 语言模型作为图像解释器,实现输入图像到场景描述的转换,该过程会充分考量场景的四大核心维度。随后,利用 3.3 节所述的工具链,将场景描述转换为仿真场景。实验过程中发现,解释器在建筑密集、车辆繁多的复杂场景中性能表现受限,导致路网特征提取结果出现较大偏差。针对这一问题,研究团队设计了优化版提示词,引导模型借助周边建筑和停放车辆推断道路的几何结构,从而更高效地分析路网信息。该改进措施有效提升了模型在复杂场景中的处理性能,场景生成的具体流程见图 6,详细内容见附录。

当输入 GPS 数据时,框架可在文本描述的基础上,融合真实的道路结构生成测试场景。该方式能够还原目标区域的实际交通状况,为自动驾驶系统在该区域的落地应用开展有效的测试验证,具体效果见图 8。

图 8 AutoScenario 融合 GPS 输入的场景生成效果
研究人员研发了基于视觉 - 语言模型的视频解释器,可从输入视频中提取道路信息与环境特征,并生成标准化的场景描述。实验发现,模型在分析视频中的车辆行驶轨迹时,对车距的估算精度较低。为解决这一问题,研究团队加入了代码提示词,引导模型利用对应图像及其深度图,计算车辆在两个时间节点之间的向前行驶距离。相较于原本仅以处理后的视频帧作为输入的方式,改进后的方法新增了与图像匹配的深度图帧作为输入。经上述优化,模型对视频中车辆行驶距离、路网长度及比例的估算精度均得到显著提升,场景生成流程见图 9,详细内容见附录。

图 9 行车记录仪视频到路网文件及仿真场景的转换流程:上图为从视频中提取的帧图像,下图为场景生成流程 —— 左侧为解释器生成的场景描述,中间为路网生成器输出的对应路网文件,右侧为最终生成的仿真场景。
此外,研究团队将 AutoScenario 框架生成的场景,与同一路网下随机布置交通车辆的场景进行了定量对比。两类场景均基于包含极端工况的真实世界图像生成路网,通过该对比可评估 AutoScenario 框架生成场景在还原真实路况方面的有效性与现实性,实验设置及结果的详细内容见附录。
本文验证了框架基于文本、图像、视频等多种输入的场景生成能力,并阐述了各类输入对应的解释器核心设计思路。在所有测试中,框架均能从对应输入中提取道路信息与环境特征。该能力是 AutoScenario 系统的核心组成部分,实现了将真实世界信息转换为统一的文本表征形式。关于真实场景与生成场景相似度的补充实验,详见附录。
表 3 为 AutoScenario 框架的消融实验结果,本实验围绕场景生成过程的三大核心环节 —— 解释器、组件生成器、场景生成器,验证各环节关键设计的有效性。
若移除负责为各场景生成详细文字描述的解释器,AutoScenario 框架无法一次性生成多样化的路网结构,后续生成环节更是无法开展。这一结果印证了分阶段生成流程的必要性,也凸显了完整、全局的场景描述的重要性。
在组件生成器环节,研究团队选取路网生成器作为实验对象。若从其提示词中移除思维链这一核心推理机制,模型的生成精度会出现明显下降,主要源于三类常见问题:其一,要素定义中缺失关键属性,例如车道要素缺少 “形状” 属性,导致 SUMO 无法正确解析车道配置;其二,属性值超出允许的枚举范围,例如道路边要素的 “扩散类型” 属性使用了 “左侧”,而合法取值仅为 “右侧”“中间” 或 “道路中央”;其三,使用未声明的属性,例如道路边要素的 “功能” 属性引用了错误的可扩展标记语言模式。
在场景生成器环节,研究团队测试了移除提示词中的代码示例和先验知识约束后的生成成功率。如表 3 所示,场景生成成功率从 0.8 降至 0.2。该结果符合预期,因 CARLA 仿真平台遵循特定的调用协议,若缺少代码示例,大语言模型内置的通用知识不足以支撑其完整生成所需的功能代码。

表 3 消融实验:生成成功率变化
本文提出了一款融合大语言模型、视觉 - 语言模型与数据驱动模型的场景生成框架。该框架首次实现了将多模态真实世界数据无缝转换为仿真场景,是一款具备高度可控性与灵活性的仿真测试工具。将真实世界中的危险场景从物体与行为两个维度迁移并泛化至 CARLA 等仿真平台,是自动驾驶仿真测试领域的基础性工作。
在未来的研究中,团队计划结合 3D 高斯溅射技术或扩散模型,进一步提升生成场景的照片级真实感。
回复“虎sir”,进入AI交流学习群:
