当前位置：首页>自动驾驶>自动驾驶的ChatGPT时刻:Vega用自然语言重塑驾驶决策

自动驾驶的ChatGPT时刻:Vega用自然语言重塑驾驶决策

论文标题：Vega: Learning to Drive with Natural Language Instructions

作者：Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu

链接：https://arxiv.org/abs/2603.25741

研究背景

Vision-language-action models已重塑自动驾驶，将语言融入决策过程。然而，现有方法仅利用语言进行场景描述或推理，缺乏根据多样化用户指令进行个性化驾驶的灵活性。自动驾驶需要理解复杂的交通场景、行人行为和道路规则，同时还需要能够响应各种类型的自然语言指令。

⚠️ 核心挑战

当前视觉-语言-动作模型面临的核心挑战在于：无法根据多样化的自然语言指令生成个性化驾驶策略。用户指令可能包括变道、转弯、避让等多种需求，而模型需要理解这些指令并生成对应的驾驶行为。此外，多轨迹预测能力也是实现灵活驾驶的关键。

🔹 Vega 模型架构

Vega是一种统一的视觉-语言-世界-动作模型，能够根据自然语言指令进行轨迹预测和规划。模型采用多模态融合机制，将视觉信息、语言指令和世界模型进行协同建模。

🔹 指令理解与对齐

通过大规模驾驶数据集InstructScene进行预训练，模型学会了理解多样化用户指令并将其映射到相应的驾驶行为。指令类型涵盖变道、转向、速度调节等常见驾驶操作。

🔹 多轨迹预测能力

Vega能够在同一场景下根据不同指令预测多条轨迹，实现多样化的驾驶策略生成。这一能力使模型能够根据用户偏好提供个性化的驾驶体验。

📊 数据集与基线对比：在InstructScene数据集上，Vega相比现有方法在指令跟随精度和轨迹预测准确性上均有显著提升，验证了方法的有效性。

📊 零样本泛化能力：模型展现出良好的零样本泛化能力，能够处理训练集中未见过的新指令类型，证明了学习到的表示具有较强的迁移性。

✅ 核心结论

本文提出Vega，一种统一的视觉-语言-世界-动作模型，用于指令引导的自动驾驶。Vega通过大规模指令数据集训练，实现了对多样化自然语言指令的灵活响应，并在多轨迹预测任务上展现出卓越性能。项目主页：https://zuosc19.github.io/Vega