当前位置：首页>自动驾驶>[Paper] 一篇读懂自动驾驶 VLA:从 VA 到世界模型,理想 / 华为 / 特斯拉到底在押什么

[Paper] 一篇读懂自动驾驶 VLA:从 VA 到世界模型,理想 / 华为 / 特斯拉到底在押什么

2026-06-15 15:58:13

如果你在智驾行业，这两年一定被 “VLA” 刷屏过：理想把它叫 “司机大模型”，华为上了 “世界模型”，连特斯拉 FSD 也被传 “偷偷用了 VLA”。

本文基于一篇 2026 年初的最新综述（HKUST、浙大、新国立、小米 EV 等联合，arXiv:2512.16760），把 VLA 这件事从头讲清——一个公式、两大范式、四个流派，外加 三家量产路线 的对照。读完，你能给任何一篇 VLA 论文或方案精准 “归位”。

本文导览： ① 论文地图 → ② 一个公式看懂所有 VLA → ③ 史前史 VA 模型（含读者答疑）→ ④ 端到端VLA → ⑤ 双系统 VLA → ⑥ 评测的开环陷阱 → ⑦会预演的下一代（含读者答疑）→ ⑧ 一页速记卡。

一、先看一张 “论文地图”

这是一篇综述——它不提新模型，而是给 “自动驾驶 VLA” 这个井喷的领域画一张分类地图。

一句话核心：首个专注自动驾驶的 VLA 综述，用统一公式 + “两范式四子类” 的分类法，把繁杂方法系统归位。

它要解决的痛点：传统模块化 “感知-决策-控制” 流水线在复杂、长尾场景下脆弱，且误差逐级放大；而纯视觉-动作（VA）端到端模型虽然绕开了模块拆分，却是黑盒、泛化弱、不会推理、也接不了人类语言指令。VLA 想用 “语言落地推理 + 可解释” 来补这些洞。

文章骨架：引言 → 预备（公式 + 三大组件）→ VA 模型（前身）→ VLA 模型（核心）→ 数据集与评测 → 挑战与未来。一句话串起来就是：“VA 前身 → VLA 现状分类 → 怎么评测 → 往哪走”。

二、地基：一个公式看懂所有 VLA

别被符号吓到。VLA 的统一公式是一条从左到右的流水线：

a_t = H( F( x | θ) ) —— 输入 x → VLM 骨干 F → 动作头 H

把它当成一个 人类司机：x 是你的眼睛、耳朵加副驾说的 “下个路口左转”；F 是你的大脑，把这些整合成一个 “理解”；H 是你的手脚，把理解变成踩油门、打方向的动作。

老一代 VA 把 F 和 H 揉成一个黑盒，眼睛直连手脚，中间没有 “语言化的理解”。VLA 的关键，就是让 F 变成一个懂语言、能推理的大模型，于是中间那层理解变得可解释、可被语言指令引导。

记住这把 “三问归位钥匙”，后面所有模型都能塞进分类表：

•喂什么输入（x）：相机 / 激光 / BEV / Occupancy / 语言指令 / 车辆状态。

•VLM 扮演什么角色（F）：自己直接出动作，还是只当军师给 “指导”。

•用哪种出口（H）：说一句话、回归数值、选轨迹、还是生成轨迹。

其中动作头分四类：LH（语言头）、REG（回归 MLP）、SEL（从候选轨迹里打分选）、GEN（扩散等生成式）。这四类是看懂全文的钥匙。

三、史前史：VA 模型（端到端 + 世界模型）

VA（Vision-Action）的信仰是：绕开显式模块拆分，让网络直接从传感输入映射到动作。它分两大分支。

3.1 端到端模型

Action-Only（无感知监督）：传感器直接进网络出动作。模仿学习（行为克隆）简单高效，但有两个经典死穴——分布漂移（自己开偏一点就进入训练没见过的状态，误差滚雪球）和因果混淆（把 “前车刹车灯亮” 当成自己刹车的原因）。强化学习更灵活，但样本效率低、奖励难设计、sim-to-real 鸿沟大。

Perception-Action（有感知监督）：用建图、跟踪等感知任务约束轨迹预测，更可解释。代表是你熟悉的 UniAD、VAD、OccNet（稠密 BEV，信息全但慢）和 SparseAD、SparseDrive（稀疏 query，快但视野短）。

3.2 世界模型：会 “做梦” 的分支

世界模型的本事是 在脑子里预演——“如果我这样开，未来场景会变成什么样？” 它按预演的形式分三类：图像（放电影，逼真但偏 2D）、占据 Occupancy（搭 3D 积木，几何实在但 3D 标注贵）、潜在 Latent（纯脑内抽象推演，高效但仍需辅助监督）。

3.3 VA 缺什么 → 为什么要 VLA

VA 的病	VLA 的药
不可解释（黑盒）	能用语言把推理讲出来
泛化弱、要按环境重训	大规模预训练，长尾更稳
没有思维链推理	原生支持 step-wise 推理
接不了人类语言指令	天然吃高层目标和自然语言

【读者答疑 · 关于 VA】 精读过程中，有几个高频问题值得单独说清：

Q1：端到端模型和世界模型都是 VA 吗？是的，两者都是 VA 伞下的并列架构家族。

Q2：世界模型只用于仿真、实际开车时不起作用？不是。世界模型有两种用法——离线（造合成数据、仿真、特征预训练）和在线（实时预演候选动作的后果再决策）。很多世界模型本身就是端到端规划器，只是内部多了 “预测未来” 这一环。

Q3：世界模型只用在端到端上吗？不用强化学习？都不是。世界模型还能当 model-based RL 里的 “模型”、当仿真器、当特征预训练工具；而且它恰恰是 RL 的天然搭档——有了它，agent 就能在 “想象的世界” 里安全试错千百次。

Q4：华为 / 理想/ 特斯拉到底怎么落地？

（以下业界细节为公开资料，非论文内容；“推断” 处已标注。）

理想 MindVLA：2025 年 GTC 发布的全栈自研 VLA。借卡尼曼 “快慢思考” 做端到端大模型 + VLM 的双系统；通过 3D 编码器融合视觉与语言，用逻辑推理生成 Action Token，再用扩散模型优化成轨迹；并用自研 “重建+生成” 云端世界模型做仿真。响应压到约300ms。2025 年 8 月随 i8 首推、9 月向 AD Max 全量。

华为 ADS 4（WEWA 架构）：2025 年 4 月发布，= 云端 “世界引擎” + 车端 “世界行为模型”。云端用扩散生成模型造极端难例（密度号称真实世界的 1000 倍，“AI 训练 AI”）；车端融合全模态感知与 MoE，做轨迹生成与意图理解。官方称端到端时延降 50%、通行效率提升 20%。这套架构正好说明：世界模型既能在云端当 “数据工厂”，也能在车端实时出动作。

特斯拉 FSD：自 V12 起完全端到端（“Photon In, Control Out”，单网络从像素到控制）。V14（2025 年 10 月起）向多模态大模型演进——输入加入导航、车辆状态、声音（识别警笛），输出涵盖 3D 占据、3D 高斯重建、语言决策与控制。业界由此推断它采用了 VLA，但官方未自称；它坚持纯视觉、无激光雷达。

划重点：三家路线，覆盖了论文几乎所有分类。 理想押 “双系统 VLA”、华为押 “世界模型驱动 + 快慢”、特斯拉押 “纯视觉单系统端到端”。

四、现在 · 上：End-to-End VLA

这是 角色 A——一个模型从头管到尾。按 “动作以什么形式输出” 分两家。

4.1 Textual：把开车当成语言推理题

模型用语言来 “思考” 和 “表达”：要么输出元动作（“加速”“变道” 这类高层语义指令，如 DriveMLM），要么把 未来路点坐标直接写成文字（如 DriveLM、Waymo 的EMMA）。好处是可解释、能复用大模型的思维链、能用强化学习优化。

它的根本痛点 —— 离散语言 token ↔ 连续控制的鸿沟。 想表达 “方向盘转 3.247 度”，语言模型只能把数字拆成一串字符 token 一个个吐，既不精准又脆弱，极端情况下轨迹会崩。一句话：语言擅长 “想得清”，却不擅长 “算得准”。

4.2 Numerical：给模型加个数值出口

VLM 内部照常推理，但末端不用嘴报坐标。两招：加动作头（MLP / 扩散直接回归连续值，如 LMDrive、ORION、SimLingo，最精准、最好接规控）；加动作 token（把连续动作离散成 codebook 词表，和推理 token 一起生成，如 AutoVLA、OpenDriveVLA，是文本与数值的折中，但有量化误差）。

把 “动作怎么表达” 的三条路一次排开（沿 “精度 ↔ 可解释” 这根轴）：

表达方式	精度	可解释	接规控	代表
文本坐标	最差、易崩	最高	差	DriveLM, EMMA
动作 token	中（有量化误差）	中	中	AutoVLA
动作头	最高	较低	最顺	LMDrive, ORION

理想的 “Action Token” 就是第二招；而闭环成绩基本被 numerical 一家包圆（SimLingo 等）。一句话：学术比可解释，工业比闭环精度——两家分工就此清楚。

五、现在 · 下：双系统 VLA（最贴量产）

E2E 有个硬伤：大模型边想边开，实时性和安全谁来兜？双系统的解法借了《思考，快与慢》：系统 2（慢、VLM） 负责深思、可解释、处理长尾；系统 1（快、专用规控） 负责低延迟、保物理可行与安全。军师出谋、将军执行。

按 “VLM 何时起作用” 分两家：

5.1 显式动作指导（运行时下命令）

VLM 实时输出看得见的指令——元动作（“减速变道”，如 Senna、DiffVLA、FasionAD 的快慢切换）或 粗轨迹路点（planner 再精修，如理想/清华的DriveVLM、SOLVE）。强在可解释、VLM 有直接决策权；坑在VLM 说错或含糊，会原样污染下游、拖垮安全。

5.2 隐式表征迁移（训练时当老师）

VLM 退到幕后，只在训练时把认知能力灌进一个小网络，上车运行时大模型不在场。两种灌法：知识蒸馏（VLP、VLM-AD，把推理/标签蒸进小网络权重）和特征融合（InsightDrive、VLM-E2E、ETA 的异步推理，把 VLM 特征接进快 planner）。换来实时性，代价是丢可解释、且蒸馏可能把推理压扁。

到这里，VLA 的四大家族就齐了。用两个问题给任何方案归位：

家族	谁出动作	运行时 VLM	可解释	实时性	接规控
E2E textual	VLM 用语言	在	高	差	差
E2E numerical	VLM + 数值出口	在	中	中	好
双系统 · 显式	VLM 下命令、规控执行	在	高	中	好
双系统 · 隐式	小网络（VLM 幕后教）	不在	低	好	好

从上到下，VLM 的 “在场感” 越来越弱、实时性越来越好、可解释性越来越低。量产的现实选择，往往是 “显式双系统兜安全 + 隐式蒸馏压算力”的混合。

六、怎么考：开环 vs 闭环的评测陷阱

这是每个从业者必须刻进 DNA 的一点。评测分三套：轨迹类的开环 / 闭环，以及 语言类。

	开环（Open-Loop）	闭环（Closed-Loop）
比喻	对答案做题	真上路考试
怎么算	预测轨迹和人类轨迹比 L2	真在仿真里开，撞了/偏了实时反馈
致命问题	掩盖分布漂移、可被车速 “作弊”、把人类一次操作当唯一真理	误差会累积，逼出真本事

所以 nuScenes 上 L2 刷得漂亮，不代表能开。WOD-E2E 的 RFS（用人类偏好评分而非唯一专家轨迹）是个聪明的修补，承认一个场景有多条合理轨迹。

实用判据： 看一篇 VLA 论文，先翻它用的是开环还是闭环——只报 nuScenes L2 的，含金量先打七折。量产团队的评测重心，早已从开环刷榜转向 “闭环 + 真实路测 + 人类偏好”。

七、未来：会预演的下一代

当前挑战：① 实时性——VLA 继承了大模型的算力包袱，<50ms 的安全级推理仍未达标（理想已压到约 300ms，仍差一个数量级）；② 缺驾驶专用基础模型；③ 会推理 ≠ 会落地（把理解对齐到动作有新的不确定性）；④ 高质量数据贵；⑤ 语言幻觉——思维链解释是事后生成的产物，模型可能用一个自信但虚假的理由去 justify 一个错误决策；⑥ 长程时序一致性差。

下一代范式：VLA + 世界模型合流

核心一句话：从 “反应式” 升级到 “预演式”。 现在的 VLA 是反应式司机——看当前帧就出动作；下一代要变成预演式老司机——出手前先在脑子里把未来快进一遍（“那辆车要并线，我现在加速会冲突，不如先松油门”）。这个 “脑内快进” 就是世界模型。类比围棋：从 “凭直觉落子” 到 “推演几步后果再落子”。

【读者答疑 · 它们怎么 “焊” 在一起？】 主要三种焊法：

① token 级焊接：图像 token 与动作 token 在同一自回归序列里交错生成（如 DrivingGPT）——预测下一帧=世界模型，预测下一动作=策略，同一个模型、同一个损失。

② 共享骨干 + 双目标：一个骨干出 latent，既接动作头，又接 “预测未来” 的自监督任务（如 LAW），用预测未来逼 latent 学会动态。

③ 在线 rollout 选择：世界模型当可查询模块，planner 对每个候选动作问 “未来会怎样”，评估后再选（如 WoTE、Drive-WM）——松耦合的 “插件式”。

落到业界：华为 WEWA 偏 “训练时焊接”（云端世界模型造数据训车端策略）；DrivingGPT 类是最干净的 “token 级焊死”。

其他未来方向：更紧的多模态融合（语义靠语言、精确空间靠激光几何，缺一不可）、社会感知与知识接地、车端持续学习、标准化的VLA 专属评测与形式化验证、以及自然语言的人机交互与个性化（理想 “开慢点 / 停那辆白车旁” 就是雏形）。

八、收藏版：一页速记卡

A. 个人速记版

核心贡献：首个专注自动驾驶的 VLA 综述，用统一公式 + “两范式四子类” 把繁杂方法系统归位。

方法骨架：

1.统一公式 a_t=H(F(x|θ))：输入 x → VLM 骨干 F → 动作头H。

2.动作头四类：LH（语言）/ REG（回归）/ SEL（选轨迹）/ GEN（生成扩散）。

3.两大范式：E2E VLA（单模型）vs 双系统 VLA（慢思考 VLM +快执行 planner）。

4.E2E 子类：textual（元动作 / 文本路点）vs numerical（动作头 / 动作 token）。

5.双系统子类：显式指导（运行时下命令）vs 隐式迁移（训练时蒸馏）。

关键概念：

•双系统：借《思考，快与慢》——VLM 慢深思 + 规控快执行。

•离散 token ↔ 连续控制鸿沟：语言 “想得清却算不准”，textual 的精度软肋。

•动作 token：把连续动作离散成 codebook，文本与数值的折中（有量化误差）。

•隐式迁移：大模型只在训练当老师蒸进小网络，运行时不在场 → 快但黑。

•开环 vs 闭环：开环对答案（可被车速作弊），闭环真上路才靠谱。

业界对照： 理想 MindVLA=双系统+Action Token+扩散（论文 cite，细节公开已知）；华为 ADS4 WEWA=世界模型驱动（公开已知）；特斯拉 FSD V14=纯视觉单系统端到端 → 向 VLA 演进（“采用 VLA” 为业界推断）。

一句话判断：当 “VLA 领域地图” 用——快速建框架、给他人方案归位极好；要量产落地细节需另找工程资料。

B. CEO 简报版

结论先行： 自动驾驶正从 “看到就反应” 的黑盒，转向 “会推理、听得懂人话、可解释” 的大模型范式（VLA），并将与 “世界模型” 合流，走向 “会预演未来” 的下一代。

三个要点：

1.语言推理是分水岭——让车能处理长尾、接受自然语言指令、给出可解释决策。

2.量产现实是 “双系统”——大模型慢思考定策略 + 经典规控快执行保安全与实时。

3.护城河在数据 + 实时性 + 评测——长尾数据贵、<50ms未达标、开环指标会骗人。

可引用数据 / 事实（均来自论文）：

•UniAD nuScenes 开环 0.69m L2 / 0.12 碰撞率；加语言后 Drive-R1 降至 0.31m / 0.09（§5.3.1）。

•闭环：SimLingo 在 Bench2Drive 驾驶分 85.94 居首（§5.3.4）；AutoVLA 在NAVSIM 达 99.1 NC / 87.6 EP（§5.3.3）。

•安全级 <50ms 实时推理 “仍是未达成的要求”（§6.1.1）。

•ImpromptuVLA 用 80K corner-case 片段预训练，显著提升长尾鲁棒性（§4.1.1）。

对我们的意义：

•[论文事实] 评测重心应从 nuScenes 开环转向闭环 + 人类偏好（RFS），否则易被开环假象误导。

•[推断] 路线上建议 “显式双系统兜安全 + 隐式蒸馏压算力” 的混合；纯textual 端到端暂不适合量产。

（本文为论文精读整理稿，原文：Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future，arXiv:2512.16760。业界对照部分为公开资料与作者推断，已分别标注。）

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

[Paper] 一篇读懂自动驾驶 VLA:从 VA 到世界模型,理想 / 华为 / 特斯拉到底在押什么

一、先看一张 “论文地图”

二、地基：一个公式看懂所有 VLA

三、史前史：VA 模型（端到端 + 世界模型）

3.1 端到端模型

3.2 世界模型：会 “做梦” 的分支

3.3 VA 缺什么 → 为什么要 VLA

Q4：华为 / 理想/ 特斯拉到底怎么落地？

四、现在 · 上：End-to-End VLA

4.1 Textual：把开车当成语言推理题

4.2 Numerical：给模型加个数值出口

五、现在 · 下：双系统 VLA（最贴量产）

5.1 显式动作指导（运行时下命令）

5.2 隐式表征迁移（训练时当老师）

六、怎么考：开环 vs 闭环的评测陷阱

七、未来：会预演的下一代

下一代范式：VLA + 世界模型合流

八、收藏版：一页速记卡

A. 个人速记版

B. CEO 简报版

最新文章

热门文章

随机文章

[Paper] 一篇读懂自动驾驶 VLA:从 VA 到世界模型,理想 / 华为 / 特斯拉到底在押什么

一、先看一张 “论文地图”

二、地基：一个公式看懂所有 VLA

三、史前史：VA 模型（端到端 + 世界模型）

3.1 端到端模型

3.2 世界模型：会 “做梦” 的分支

3.3 VA 缺什么 → 为什么要 VLA

Q4：华为 / 理想/ 特斯拉到底怎么落地？

四、现在 · 上：End-to-End VLA

4.1 Textual：把开车当成语言推理题

4.2 Numerical：给模型加个数值出口

五、现在 · 下：双系统 VLA（最贴量产）

5.1 显式动作指导（运行时下命令）

5.2 隐式表征迁移（训练时当老师）

六、怎么考：开环 vs 闭环的评测陷阱

七、未来：会预演的下一代

下一代范式：VLA + 世界模型合流

八、收藏版：一页速记卡

A. 个人速记版

B. CEO 简报版

湖南株洲L4级自动驾驶汽车撞人事故,责任如何承担? | 发现原创

自动驾驶公交对公交司机的影响,五年内和十年后不一样

最新文章

热门文章

随机文章