当前位置：首页>自动驾驶>滴滴自动驾驶&香港中文大学&清华发布无人驾驶VLA大模型ColaVLA

滴滴自动驾驶&香港中文大学&清华发布无人驾驶VLA大模型ColaVLA

2026-06-08 09:19:01

前不久，清华大学联合滴滴自动驾驶，以及香港中文大学多媒体实验室，发布了无人驾驶视觉大模型ColaVLA，文章是《ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving》，主要内容摘要如下，

1️⃣ 背景：

无人驾驶需要基于复杂的多模态输入生成安全可靠的轨迹。

传统的基于规则的系统会分割成感知、预测、规划多个模块；而端到端会联合学习感知、预测、和规划。

而VLM通过引入跨模态的先验知识和常识推理，使端到端更成为很多自动驾驶的架构选择。

2️⃣ 然而目前基于VLM的规划系统面对几个关键挑战，

1）离散的文本推理与连续的控制间的对齐问题。

2）基于chain-of-thought的大模型自回归编码的较高的时延。

3）低效满足不了实时性的要求，而无法部署到实车上。

3️⃣ 模型主要分为两大部分，

1）Cognitive Latent Reasoner：通过视觉推理，基于上下文以及自车状态，筛选出最重要的K个关键视觉元素Token，并生成多个粗略的驾驶决策maneuver(直行，左转，制动等)。

2）Hierarchical Parallel Planner：为每个maneuver并行生成多scale的轨迹。

4️⃣ Cognitive Latent Reasoner主要涉及如下

（a）视觉场景理解：将视觉&文本&车辆状态拼接起来丢给大模型，进行视觉推理，输出理解后的视觉token。

（b）关键实体识别：基于Ego Token筛选出最重要的K个视觉token，以表征车道线、边界、动态交通参与者、静态障碍物等对自车决策比较重要的视觉元素。

（c）粗粒度驾驶策略规划：基于核心输入，生成粗略的的规划决策，用Meta Query来表达，可以将每个Meta Query近似为一个maneuver，比如直行、左转、右转、掉头、刹车等等

（d）maneuver选择：计算每个maneuver的概率，并筛选出概率最高的N=3种(比如左转、直行、刹车)

5️⃣ Hierarchical Parallel Planner的主要涉及如下

1）根据不同maneuver，转化成对应的Multi-Scale Target。

2）并行计算三种maneuver(比如左转、直行、刹车)对应的Multi-Scale 的轨迹。

6️⃣ 三阶段训练策略，

第一阶段：通过OmniDrive nuScenes QA pairs数据来训练VLM模型骨架。

第二阶段：通过k-mean，从nuScenes轨迹数据聚类出meta-action 类型，比如直行，换道，左转，制动等等。

冻结VLM，主要训练meta-action分类器，以及轨迹预测head，来将latent meta-actions与典型的驾驶maneuver(e.g., straight, lane change, turn, braking)对齐，这为后续的下游的分层次planing提供结构化的和稳定的先验知识

第三阶段，通过nuScenes planning supervision进行端到端微调，依然冻结VLM，主要训练其他参数。

7️⃣ 文章的模型的backbone是(LLaMA-7B)，

图像的Image encoder是EVA-02-L

视觉推理模块SQ-Former

核心训练数据集：nuScenes