如果你在智驾行业,这两年一定被 “VLA” 刷屏过:理想把它叫 “司机大模型”,华为上了 “世界模型”,连特斯拉 FSD 也被传 “偷偷用了 VLA”。 本文基于一篇 2026 年初的最新综述(HKUST、浙大、新国立、小米 EV 等联合,arXiv:2512.16760),把 VLA 这件事从头讲清——一个公式、两大范式、四个流派,外加 三家量产路线 的对照。读完,你能给任何一篇 VLA 论文或方案精准 “归位”。 |
本文导览: ① 论文地图 → ② 一个公式看懂所有 VLA → ③ 史前史 VA 模型(含读者答疑)→ ④ 端到端VLA → ⑤ 双系统 VLA → ⑥ 评测的开环陷阱 → ⑦会预演的下一代(含读者答疑)→ ⑧ 一页速记卡。
一、先看一张 “论文地图”
这是一篇 综述——它不提新模型,而是给 “自动驾驶 VLA” 这个井喷的领域画一张分类地图。
一句话核心:首个专注自动驾驶的 VLA 综述,用统一公式 + “两范式四子类” 的分类法,把繁杂方法系统归位。
它要解决的痛点:传统模块化 “感知-决策-控制” 流水线在复杂、长尾场景下脆弱,且误差逐级放大;而纯视觉-动作(VA)端到端模型虽然绕开了模块拆分,却是黑盒、泛化弱、不会推理、也接不了人类语言指令。VLA 想用 “语言落地推理 + 可解释” 来补这些洞。
文章骨架:引言 → 预备(公式 + 三大组件)→ VA 模型(前身)→ VLA 模型(核心)→ 数据集与评测 → 挑战与未来。一句话串起来就是:“VA 前身 → VLA 现状分类 → 怎么评测 → 往哪走”。
二、地基:一个公式看懂所有 VLA
别被符号吓到。VLA 的统一公式是一条从左到右的流水线:
a_t = H( F( x | θ) ) —— 输入 x → VLM 骨干 F → 动作头 H |
把它当成一个 人类司机:x 是你的眼睛、耳朵加副驾说的 “下个路口左转”;F 是你的大脑,把这些整合成一个 “理解”;H 是你的手脚,把理解变成踩油门、打方向的动作。
老一代 VA 把 F 和 H 揉成一个黑盒,眼睛直连手脚,中间没有 “语言化的理解”。VLA 的关键,就是让 F 变成一个懂语言、能推理的大模型,于是中间那层理解变得可解释、可被语言指令引导。
记住这把 “三问归位钥匙”,后面所有模型都能塞进分类表:
•喂什么输入(x):相机 / 激光 / BEV / Occupancy / 语言指令 / 车辆状态。
•VLM 扮演什么角色(F):自己直接出动作,还是只当军师给 “指导”。
•用哪种出口(H):说一句话、回归数值、选轨迹、还是生成轨迹。
其中动作头分四类:LH(语言头)、REG(回归 MLP)、SEL(从候选轨迹里打分选)、GEN(扩散等生成式)。这四类是看懂全文的钥匙。
三、史前史:VA 模型(端到端 + 世界模型)
VA(Vision-Action)的信仰是:绕开显式模块拆分,让网络直接从传感输入映射到动作。它分两大分支。
3.1 端到端模型
Action-Only(无感知监督):传感器直接进网络出动作。模仿学习(行为克隆)简单高效,但有两个经典死穴——分布漂移(自己开偏一点就进入训练没见过的状态,误差滚雪球)和因果混淆(把 “前车刹车灯亮” 当成自己刹车的原因)。强化学习更灵活,但样本效率低、奖励难设计、sim-to-real 鸿沟大。
Perception-Action(有感知监督):用建图、跟踪等感知任务约束轨迹预测,更可解释。代表是你熟悉的 UniAD、VAD、OccNet(稠密 BEV,信息全但慢)和 SparseAD、SparseDrive(稀疏 query,快但视野短)。
3.2 世界模型:会 “做梦” 的分支
世界模型的本事是 在脑子里预演——“如果我这样开,未来场景会变成什么样?” 它按预演的形式分三类:图像(放电影,逼真但偏 2D)、占据 Occupancy(搭 3D 积木,几何实在但 3D 标注贵)、潜在 Latent(纯脑内抽象推演,高效但仍需辅助监督)。
3.3 VA 缺什么 → 为什么要 VLA
VA 的病 | VLA 的药 |
不可解释(黑盒) | 能用语言把推理讲出来 |
泛化弱、要按环境重训 | 大规模预训练,长尾更稳 |
没有思维链推理 | 原生支持 step-wise 推理 |
接不了人类语言指令 | 天然吃高层目标和自然语言 |
【读者答疑 · 关于 VA】 精读过程中,有几个高频问题值得单独说清: Q1:端到端模型和世界模型都是 VA 吗? 是的,两者都是 VA 伞下的并列架构家族。 Q2:世界模型只用于仿真、实际开车时不起作用? 不是。世界模型有两种用法——离线(造合成数据、仿真、特征预训练)和在线(实时预演候选动作的后果再决策)。很多世界模型本身就是端到端规划器,只是内部多了 “预测未来” 这一环。 Q3:世界模型只用在端到端上吗?不用强化学习? 都不是。世界模型还能当 model-based RL 里的 “模型”、当仿真器、当特征预训练工具;而且它恰恰是 RL 的天然搭档——有了它,agent 就能在 “想象的世界” 里安全试错千百次。 |
Q4:华为 / 理想/ 特斯拉到底怎么落地?
(以下业界细节为公开资料,非论文内容;“推断” 处已标注。)
理想 MindVLA:2025 年 GTC 发布的全栈自研 VLA。借卡尼曼 “快慢思考” 做端到端大模型 + VLM 的双系统;通过 3D 编码器融合视觉与语言,用逻辑推理生成 Action Token,再用扩散模型优化成轨迹;并用自研 “重建+生成” 云端世界模型做仿真。响应压到约300ms。2025 年 8 月随 i8 首推、9 月向 AD Max 全量。
华为 ADS 4(WEWA 架构):2025 年 4 月发布,= 云端 “世界引擎” + 车端 “世界行为模型”。云端用扩散生成模型造极端难例(密度号称真实世界的 1000 倍,“AI 训练 AI”);车端融合全模态感知与 MoE,做轨迹生成与意图理解。官方称端到端时延降 50%、通行效率提升 20%。这套架构正好说明:世界模型既能在云端当 “数据工厂”,也能在车端实时出动作。
特斯拉 FSD:自 V12 起完全端到端(“Photon In, Control Out”,单网络从像素到控制)。V14(2025 年 10 月起)向多模态大模型演进——输入加入导航、车辆状态、声音(识别警笛),输出涵盖 3D 占据、3D 高斯重建、语言决策与控制。业界由此 推断 它采用了 VLA,但官方未自称;它坚持纯视觉、无激光雷达。
划重点:三家路线,覆盖了论文几乎所有分类。 理想押 “双系统 VLA”、华为押 “世界模型驱动 + 快慢”、特斯拉押 “纯视觉单系统端到端”。 |
四、现在 · 上:End-to-End VLA
这是 角色 A——一个模型从头管到尾。按 “动作以什么形式输出” 分两家。
4.1 Textual:把开车当成语言推理题
模型用语言来 “思考” 和 “表达”:要么输出元动作(“加速”“变道” 这类高层语义指令,如 DriveMLM),要么把 未来路点坐标直接写成文字(如 DriveLM、Waymo 的EMMA)。好处是可解释、能复用大模型的思维链、能用强化学习优化。
它的根本痛点 —— 离散语言 token ↔ 连续控制的鸿沟。 想表达 “方向盘转 3.247 度”,语言模型只能把数字拆成一串字符 token 一个个吐,既不精准又脆弱,极端情况下轨迹会崩。一句话:语言擅长 “想得清”,却不擅长 “算得准”。 |
4.2 Numerical:给模型加个数值出口
VLM 内部照常推理,但末端不用嘴报坐标。两招:加动作头(MLP / 扩散直接回归连续值,如 LMDrive、ORION、SimLingo,最精准、最好接规控);加动作 token(把连续动作离散成 codebook 词表,和推理 token 一起生成,如 AutoVLA、OpenDriveVLA,是文本与数值的折中,但有量化误差)。
把 “动作怎么表达” 的三条路一次排开(沿 “精度 ↔ 可解释” 这根轴):
表达方式 | 精度 | 可解释 | 接规控 | 代表 |
文本坐标 | 最差、易崩 | 最高 | 差 | DriveLM, EMMA |
动作 token | 中(有量化误差) | 中 | 中 | AutoVLA |
动作头 | 最高 | 较低 | 最顺 | LMDrive, ORION |
理想的 “Action Token” 就是第二招;而闭环成绩基本被 numerical 一家包圆(SimLingo 等)。一句话:学术比可解释,工业比闭环精度——两家分工就此清楚。
五、现在 · 下:双系统 VLA(最贴量产)
E2E 有个硬伤:大模型边想边开,实时性和安全谁来兜?双系统的解法借了《思考,快与慢》:系统 2(慢、VLM) 负责深思、可解释、处理长尾;系统 1(快、专用规控) 负责低延迟、保物理可行与安全。军师出谋、将军执行。
按 “VLM 何时起作用” 分两家:
5.1 显式动作指导(运行时下命令)
VLM 实时输出看得见的指令——元动作(“减速变道”,如 Senna、DiffVLA、FasionAD 的快慢切换)或 粗轨迹路点(planner 再精修,如理想/清华的DriveVLM、SOLVE)。强在可解释、VLM 有直接决策权;坑在VLM 说错或含糊,会原样污染下游、拖垮安全。
5.2 隐式表征迁移(训练时当老师)
VLM 退到幕后,只在训练时把认知能力灌进一个小网络,上车运行时大模型不在场。两种灌法:知识蒸馏(VLP、VLM-AD,把推理/标签蒸进小网络权重)和特征融合(InsightDrive、VLM-E2E、ETA 的异步推理,把 VLM 特征接进快 planner)。换来实时性,代价是丢可解释、且蒸馏可能把推理压扁。
到这里,VLA 的四大家族就齐了。用两个问题给任何方案归位:
家族 | 谁出动作 | 运行时 VLM | 可解释 | 实时性 | 接规控 |
E2E textual | VLM 用语言 | 在 | 高 | 差 | 差 |
E2E numerical | VLM + 数值出口 | 在 | 中 | 中 | 好 |
双系统 · 显式 | VLM 下命令、规控执行 | 在 | 高 | 中 | 好 |
双系统 · 隐式 | 小网络(VLM 幕后教) | 不在 | 低 | 好 | 好 |
从上到下,VLM 的 “在场感” 越来越弱、实时性越来越好、可解释性越来越低。量产的现实选择,往往是 “显式双系统兜安全 + 隐式蒸馏压算力”的混合。
六、怎么考:开环 vs 闭环的评测陷阱
这是每个从业者必须刻进 DNA 的一点。评测分三套:轨迹类的开环 / 闭环,以及 语言类。
| 开环(Open-Loop) | 闭环(Closed-Loop) |
比喻 | 对答案做题 | 真上路考试 |
怎么算 | 预测轨迹和人类轨迹比 L2 | 真在仿真里开,撞了/偏了实时反馈 |
致命问题 | 掩盖分布漂移、可被车速 “作弊”、把人类一次操作当唯一真理 | 误差会累积,逼出真本事 |
所以 nuScenes 上 L2 刷得漂亮,不代表能开。WOD-E2E 的 RFS(用人类偏好评分而非唯一专家轨迹)是个聪明的修补,承认一个场景有多条合理轨迹。
实用判据: 看一篇 VLA 论文,先翻它用的是开环还是闭环——只报 nuScenes L2 的,含金量先打七折。量产团队的评测重心,早已从开环刷榜转向 “闭环 + 真实路测 + 人类偏好”。 |
七、未来:会预演的下一代
当前挑战:① 实时性——VLA 继承了大模型的算力包袱,<50ms 的安全级推理仍未达标(理想已压到约 300ms,仍差一个数量级);② 缺驾驶专用基础模型;③ 会推理 ≠ 会落地(把理解对齐到动作有新的不确定性);④ 高质量数据贵;⑤ 语言幻觉——思维链解释是事后生成的产物,模型可能用一个自信但虚假的理由去 justify 一个错误决策;⑥ 长程时序一致性差。
下一代范式:VLA + 世界模型合流
核心一句话:从 “反应式” 升级到 “预演式”。 现在的 VLA 是反应式司机——看当前帧就出动作;下一代要变成预演式老司机——出手前先在脑子里把未来快进一遍(“那辆车要并线,我现在加速会冲突,不如先松油门”)。这个 “脑内快进” 就是世界模型。类比围棋:从 “凭直觉落子” 到 “推演几步后果再落子”。
【读者答疑 · 它们怎么 “焊” 在一起?】 主要三种焊法: ① token 级焊接:图像 token 与动作 token 在同一自回归序列里交错生成(如 DrivingGPT)——预测下一帧=世界模型,预测下一动作=策略,同一个模型、同一个损失。 ② 共享骨干 + 双目标:一个骨干出 latent,既接动作头,又接 “预测未来” 的自监督任务(如 LAW),用预测未来逼 latent 学会动态。 ③ 在线 rollout 选择:世界模型当可查询模块,planner 对每个候选动作问 “未来会怎样”,评估后再选(如 WoTE、Drive-WM)——松耦合的 “插件式”。 落到业界:华为 WEWA 偏 “训练时焊接”(云端世界模型造数据训车端策略);DrivingGPT 类是最干净的 “token 级焊死”。 |
其他未来方向:更紧的多模态融合(语义靠语言、精确空间靠激光几何,缺一不可)、社会感知与知识接地、车端持续学习、标准化的VLA 专属评测与形式化验证、以及自然语言的人机交互与个性化(理想 “开慢点 / 停那辆白车旁” 就是雏形)。
八、收藏版:一页速记卡
A. 个人速记版
核心贡献:首个专注自动驾驶的 VLA 综述,用统一公式 + “两范式四子类” 把繁杂方法系统归位。
方法骨架:
1.统一公式 a_t=H(F(x|θ)):输入 x → VLM 骨干 F → 动作头H。
2.动作头四类:LH(语言)/ REG(回归)/ SEL(选轨迹)/ GEN(生成扩散)。
3.两大范式:E2E VLA(单模型)vs 双系统 VLA(慢思考 VLM +快执行 planner)。
4.E2E 子类:textual(元动作 / 文本路点)vs numerical(动作头 / 动作 token)。
5.双系统子类:显式指导(运行时下命令)vs 隐式迁移(训练时蒸馏)。
关键概念:
•双系统:借《思考,快与慢》——VLM 慢深思 + 规控快执行。
•离散 token ↔ 连续控制鸿沟:语言 “想得清却算不准”,textual 的精度软肋。
•动作 token:把连续动作离散成 codebook,文本与数值的折中(有量化误差)。
•隐式迁移:大模型只在训练当老师蒸进小网络,运行时不在场 → 快但黑。
•开环 vs 闭环:开环对答案(可被车速作弊),闭环真上路才靠谱。
业界对照: 理想 MindVLA=双系统+Action Token+扩散(论文 cite,细节公开已知);华为 ADS4 WEWA=世界模型驱动(公开已知);特斯拉 FSD V14=纯视觉单系统端到端 → 向 VLA 演进(“采用 VLA” 为业界推断)。
一句话判断:当 “VLA 领域地图” 用——快速建框架、给他人方案归位极好;要量产落地细节需另找工程资料。
B. CEO 简报版
结论先行: 自动驾驶正从 “看到就反应” 的黑盒,转向 “会推理、听得懂人话、可解释” 的大模型范式(VLA),并将与 “世界模型” 合流,走向 “会预演未来” 的下一代。 |
三个要点:
1.语言推理是分水岭——让车能处理长尾、接受自然语言指令、给出可解释决策。
2.量产现实是 “双系统”——大模型慢思考定策略 + 经典规控快执行保安全与实时。
3.护城河在数据 + 实时性 + 评测——长尾数据贵、<50ms未达标、开环指标会骗人。
可引用数据 / 事实(均来自论文):
•UniAD nuScenes 开环 0.69m L2 / 0.12 碰撞率;加语言后 Drive-R1 降至 0.31m / 0.09(§5.3.1)。
•闭环:SimLingo 在 Bench2Drive 驾驶分 85.94 居首(§5.3.4);AutoVLA 在NAVSIM 达 99.1 NC / 87.6 EP(§5.3.3)。
•安全级 <50ms 实时推理 “仍是未达成的要求”(§6.1.1)。
•ImpromptuVLA 用 80K corner-case 片段预训练,显著提升长尾鲁棒性(§4.1.1)。
对我们的意义:
•[论文事实] 评测重心应从 nuScenes 开环转向闭环 + 人类偏好(RFS),否则易被开环假象误导。
•[推断] 路线上建议 “显式双系统兜安全 + 隐式蒸馏压算力” 的混合;纯textual 端到端暂不适合量产。
(本文为论文精读整理稿,原文:Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future,arXiv:2512.16760。业界对照部分为公开资料与作者推断,已分别标注。)