当前位置：首页>自动驾驶>ICML 2025 | 突破自动驾驶交互推理瓶颈!WOMD-Reasoning:300万问答对打造驾驶场景理解新范式

ICML 2025 | 突破自动驾驶交互推理瓶颈!WOMD-Reasoning:300万问答对打造驾驶场景理解新范式

2026-04-28 16:26:56

在自动驾驶技术飞速发展的今天，语言模型凭借海量文本预训练知识，本应成为驾驶场景分析的“利器”——毕竟交通规则、驾驶行为逻辑都早已沉淀在文本中。但现实却是，现有数据集要么聚焦“近距离空间交互”（比如车辆碰撞、保持车距），要么规模太小，完全无法支撑非邻近性、基于交通规则/人类意图的交互推理，这也让自动驾驶的安全决策始终存在短板。

近期，一篇发表于ICML 2025的论文《WOMD-Reasoning: A Large-Scale Dataset for Interaction Reasoning in Driving》给出了破局思路：构建目前最大的多模态驾驶问答数据集WOMD-Reasoning，搭配专门设计的Motion-LLaVA模型，让语言模型真正“读懂”驾驶场景中的复杂交互！

我整理了“驾驶场景＋交互推理”方向10篇相关论文（包括本章1篇论文），帮助大家了解学习“驾驶场景＋交互推理”方向，选题，挖创新点。

扫码回复

“驾驶场景＋交互推理”

免费领取&进交流群

论文信息

题目：WOMD-Reasoning: A Large-Scale Dataset for Interaction Reasoning in Driving

面向驾驶交互推理的大规模数据集WOMD-Reasoning

作者：Yiheng Li, Cunxin Fan, Chongjian Ge, Seth Z. Zhao, Chenran Li, Chenfeng Xu, Huaxiu Yao, Masayoshi Tomizuka, Bolei Zhou, Chen Tang, Mingyu Ding, Wei Zhan

源码：https://github.com/yhli123/WOMD-Reasoning

一、核心痛点：现有数据集的两大致命短板

此前的驾驶语言数据集，始终绕不开两个问题：

交互覆盖太窄：几乎只关注“空间邻近性交互”（比如BDD-X聚焦空间阻挡、DriveLM仅解释“保持安全距离”），完全忽略了交通规则（如红绿灯、停车标志）、人类意图（如超车、让行）引发的非邻近交互——而这恰恰是自动驾驶安全决策的核心。
规模太小：数据量不足以支撑多模态微调，无法覆盖场景描述、运动预测、轨迹规划等全栈任务。

针对这些问题，WOMD-Reasoning的出现，直接填补了这两大空白。

二、WOMD-Reasoning：300万问答对的驾驶交互“知识库”

1. 数据集核心创新：不止“大”，更在“准”和“全”

WOMD-Reasoning基于Waymo开放运动数据集（WOMD）构建，核心亮点直击行业痛点：

规模天花板：包含300万个真实世界驾驶场景问答对，是现有同类数据集的6-113倍；其中仅“交互特定问答对”就有40.9万个，专门聚焦交通规则/人类意图交互。
覆盖维度全：问答分为“事实性内容”和“推理性内容”两大板块：

事实性内容：地图环境（交叉口、停车标志、车道数）、自车/周边智能体运动状态（速度、加速度、位置）；
推理性内容：智能体交互分析（谁该让行、为何交互）、自车意图预测（基于交互的轨迹规划）。

自动化生成+高准确率：作者设计了“规则转换+ChatGPT-4提示”的自动化流程——先通过规则程序将运动数据转成语言描述，再用GPT-4生成交互推理问答，整体准确率约90%，大幅降低人工标注成本（仅GPT-4调用成本约12750美元）。

2. 数据集里的“典型交互案例”：读懂非邻近交互的价值

很多关键交互并非“近距离触发”，而是由交通规则主导，这正是WOMD-Reasoning的核心价值所在：

交通规则交互示例（图1）：左图中，智能体#0虽距离自车较远，但受停车标志约束必须让行；右图中，智能体#1需让行给拥有左转绿灯优先通行权的自车——这类交互在传统数据集中完全被忽视，却是自动驾驶安全的关键。
人类意图交互示例（图3）：以“超车”为例，数据集能精准捕捉驾驶员的意图逻辑，为模型理解人类驾驶行为提供了细粒度标注。

3. 视觉扩展：补上“图像/视频”维度

原始WOMD缺少相机数据，作者通过ScenarioNet和MetaDrive模拟器，为每个场景生成了鸟瞰图、自车视角视频（90帧、10Hz，含10帧历史+80帧未来轨迹），让数据集能支撑视觉-语言多模态任务。

三、Motion-LLaVA：让模型“吃透”驾驶交互的核心方法

为验证数据集价值，作者基于LLaVA打造了Motion-LLaVA多模态模型，专门适配驾驶场景的运动数据输入，核心设计如下：

1. 方法总体架构（图4）：

输入层：替换LLaVA的视觉编码器，改用MultiPath++运动预测模型的编码器处理运动数据；
训练策略：解冻所有组件，混合驾驶无关问题避免“灾难性遗忘”；
推理策略：采用“思维链”——先回答事实性问题（地图、运动状态），再汇总结果作为上下文，回答交互/意图推理问题，大幅减少模型“幻觉”。

2. 训练成本：

在2块NVIDIA A6000 GPU上，训练1个epoch仅需1天，兼顾效率与效果。

四、效果验证：从交互预测到轨迹规划，全维度突破

1. 交互预测：精准捕捉交通规则交互（图5）

Motion-LLaVA能准确预测未见过的真实场景中，由交通灯、停车标志等规则引发的交互，比如“自车在绿灯时直行，右侧车辆需让行”，彻底摆脱了传统模型“只看距离不看规则”的局限。

2. 符合交通规则的规划（图6）

基于交互分析，模型能为自车生成符合优先通行权的轨迹规划，比如“左转时优先于对向直行车辆”，直接落地到自动驾驶的规划任务中。

3. 定量评估：指标全面领先（表4）

在BLEU-4、ROUGE-L、GPT Score等语言指标上，Motion-LLaVA远超未微调的LLaVA，甚至优于“鸟瞰图输入”的微调版本——原因是运动数据编码避免了视觉转换的信息丢失。

4. 下游任务赋能：轨迹预测效果提升（表6）

将Motion-LLaVA输出的交互语言嵌入引入Multipath++轨迹预测模型后，预测指标显著提升，同时增强了模型的可解释性。

五、总结：重新定义驾驶语言数据集的“天花板”

WOMD-Reasoning的核心价值，不仅在于“300万问答对”的规模，更在于首次系统性覆盖了“交通规则+人类意图”引发的非邻近交互，填补了行业空白；而Motion-LLaVA则验证了这类数据集的落地价值——让语言模型真正从“文本知识”走向“驾驶场景理解”。

对于自动驾驶领域而言，这一工作不仅提供了高质量的数据集，更给出了“语言模型+驾驶交互”的完整落地思路：从数据生成、多模态微调，到交互预测、轨迹规划，全链路打通了语言模型在自动驾驶中的应用路径。未来，随着数据集的视觉扩展和模型的进一步优化，语言引导的自动驾驶决策或将成为新的研究方向！

如果大家有要宣传的工作（paper、项目、rp、招聘等），欢迎后台留言

关注+星标不迷路~

CCF/SCI/SSCI论文辅导

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

ICML 2025 | 突破自动驾驶交互推理瓶颈!WOMD-Reasoning:300万问答对打造驾驶场景理解新范式