当前位置：首页>自动驾驶>VLA大模型上车:自动驾驶的＂ChatGPT时刻＂来了

VLA大模型上车:自动驾驶的＂ChatGPT时刻＂来了

2026-04-22 16:53:28

开头先说个事儿。

去年你让ChatGPT帮你写个年终总结，惊掉了下巴。今年，同样的大模型技术，已经在学开车了。

而且学得还不错，今年小鹏的VLA2.0已经上车而且取得了不错的评价。

这个东西叫VLA，全称Vision-Language-Action Model，翻译过来就是"视觉-语言-动作模型"。你可以把它理解成一个既能看路、又能听懂人话、还能直接打方向盘的AI司机。

这不是概念，不是PPT。英伟达在推，Waymo在用，国内的几家头部智驾公司已经跑通了闭环。

2026年，VLA就是智能驾驶最大的技术变量。没有之一。

今天这篇文章，我尽量用人话把这件事讲透。

一、先搞明白一件事：现在的智驾到底"笨"在哪

你有没有想过一个问题：为什么现在的智能驾驶，高速上表现还行，一进城就抓瞎？

答案很简单——它不是真的在"开车"，它是在做填空题。

现在主流的智驾方案，本质上是一条流水线：

感知模块负责看——前面有辆车，左边有个行人，右边有个锥桶。

预测模块负责猜——那辆车可能要变道，行人可能要过马路。

规划模块负责算——我应该减速、让行、然后从左侧绕过去。

控制模块负责执行——打方向盘、踩刹车，完事。

四个模块，各干各的，中间靠一套规则串起来。

问题出在哪？出在"规则"两个字上。

城市道路最让人头疼的是什么？是那些"规则覆盖不了"的场景。

外卖小哥逆行，你让还是不让？前面有辆三轮车，上面堆了两米高的纸箱子，挡住了你的视野，你怎么处理？工地施工，地上画的线和实际通行路径完全不一样，你信谁的？

老司机处理这些场景靠的是什么？靠的是"经验"加"常识"。

他知道外卖小哥赶时间不会让你，他知道三轮车速度慢要提前变道，他知道工地这种情况跟着前车走就对了。

这种能力，你没法写成规则。你写一千条、一万条，永远有第一万零一种情况在路上等着你。

这就是传统智驾的天花板。

二、VLA是什么？一句话说清楚

好，铺垫完了，该请主角登场了。

VLA的核心思路特别简单，简单到你会觉得"这不是显而易见的吗"。

既然大模型能看图、能聊天、能推理——那为什么不能让它直接开车？

于是就有人真这么干了。

VLA的"三个字母"代表三种能力：

V是Vision，视觉。给它摄像头画面，它能看懂路况。

L是Language，语言。你可以用自然语言跟它交流，比如"前面在修路，靠右走"，它能听懂。

A是Action，动作。它的输出不是一段文字，而是直接的驾驶指令——方向盘转多少度、油门踩多深、刹车力度多大。

看到、理解、行动。一个模型，端到端，一步到位。

你可以把它想象成这样一个场景：

副驾坐了一个人，他看着前面的路，脑子里在思考，然后手直接握着方向盘开。他不需要先跟旁边的人说"前面有障碍物"，再让另一个人说"建议减速"，再让第三个人踩刹车。

他自己就全干了。

这就是VLA和传统方案最本质的区别——它不是一条流水线，它是一个完整的"大脑"。

三、VLA到底怎么工作的？拆给你看

光说概念没用，我们来拆一下VLA的技术实现。别怕，我不写公式，保证你能看懂。

VLA模型通常由三个核心部分组成：

第一层：视觉编码器——"眼睛"

摄像头拍到的画面，是一堆像素。VLA需要先把这些像素变成模型能理解的"语言"。

怎么变？用视觉编码器。

你可以把它理解成一个"翻译官"。它把图像里的每个区域翻译成一个个"视觉token"——本质上就是一串数字向量。

这些向量包含了丰富的信息：这块区域是一辆白色的SUV、距离大概30米、正在减速、车尾灯亮了。

主流方案里，视觉编码器一般用的是ViT（Vision Transformer）或者SigLIP这类预训练模型。你不用记这些名字，只需要知道——这些模型在海量图片上训练过，已经非常擅长"看图说话"了。

这一步做完，图像就变成了一种大模型能处理的数据格式，可以和文本信息放在一起处理了。

第二层：大语言模型——"大脑"

这是VLA的核心中的核心。

视觉编码器输出的视觉token，加上可能存在的语言指令（比如导航信息、用户的语音命令），一起喂给一个大语言模型。

没错，就是你用的那种大语言模型。LLaMA、Qwen、GPT这些架构，换个训练数据，就能用在驾驶场景里。

这个大语言模型做什么？做推理。

它会综合所有输入信息，理解当前场景，做出判断：

"前方30米有一辆SUV正在减速，可能是要右转。右侧车道有一辆公交车正在靠站。左侧车道空闲。当前车速60km/h。最优策略是轻踩刹车减速至45km/h，同时向左微调方向准备从左侧通过。"

注意，这段"思考"在模型内部完成，实际推理时间可能只有几十毫秒。但它确实在做类似人类老司机的"场景理解"和"决策推理"。

这就是大模型的威力——它见过海量的驾驶场景，它知道SUV亮刹车灯通常意味着什么，它知道公交车靠站以后可能会有乘客下车横穿马路。

这些"常识"和"经验"，不是写规则写出来的，是从数据里学出来的。

第三层：动作解码器——"手脚"

大模型想好了怎么开，但它的输出还是一串数字。最后一步，需要把这些数字变成具体的控制指令。

这就是动作解码器干的事。

目前主流有两种方案：

第一种是直接回归。模型直接输出连续值——方向盘角度、加速度、制动力。简单粗暴，但有时候精度不够。

第二种更聪明，叫离散化token预测。

什么意思？把动作空间也变成"词汇"。

比如，把方向盘的转角从-540度到+540度切成256个离散值，每个值对应一个token。加速度也切成256个值。这样，输出驾驶动作就变成了"说下一个词"——本质上和大模型生成文字是完全一样的机制。

Google旗下DeepMind的RT-2就是这么干的，效果出奇的好。

这三层合在一起，就是一个完整的VLA模型：

摄像头画面进去，方向盘指令出来。中间只有一个模型，没有人为设定的规则，没有模块间的信息损耗。

四、VLA和端到端有什么区别？这个问题问得好

有人会说：端到端不是早就有了吗？特斯拉的FSD v12不就是端到端？VLA有什么不同？

这个问题问到了关键。

端到端是一个大的方向，VLA是端到端里面的一个技术路线。

特斯拉FSD v12确实是端到端——传感器输入直接到控制输出，中间用一个大网络搞定。但它用的不是大语言模型架构，它的网络结构更多是传统的深度学习范式。

VLA的关键区别在于那个"L"。

语言，不仅仅是让你能跟车对话。语言带来的是三个巨大的优势：

第一，可解释性。

传统端到端是个黑箱。车做了一个动作，你不知道它为什么这么做。出了事故，你复盘都没法复盘。

VLA因为内核是语言模型，它可以"说出"自己的推理过程。比如：

"我检测到前方有施工区域，道路变窄，限速降低。右侧有临时护栏，左侧有对向来车。我决定减速至20km/h，保持当前车道缓慢通过。"

这个能力在量产车上非常关键。OTA出了问题，工程师可以回看模型的"思维链"，快速定位是哪个环节出了错。这对于法规审批也至关重要——你得告诉监管部门，这台车为什么要这么开。

第二，泛化能力。

大语言模型最强的能力是什么？是它在海量文本上学到的世界知识。

你从来没让它学过"看到前面有辆洒水车就别跟太近"这个规则，但它从大量文本中知道洒水车会喷水、路面会湿滑、跟太近会影响视野。

这种跨领域的知识迁移，是传统感知-预测-规划流水线根本做不到的。

一个训练数据里从来没出现过的罕见场景——比如一辆拉着巨大气球的卡车——传统方案可能直接懵了，但VLA大模型可能通过它对"气球"和"风"的常识理解，判断出这个气球可能会飘动遮挡视线，从而提前做出规避。

这叫zero-shot能力。传统方案靠数据覆盖，VLA靠常识推理。

第三，交互能力。

你可以对车说："我赶时间，开快一点。"

你可以说："右边那个商场，我要去那儿，找个好停的位置。"

你甚至可以说："前面那辆车开得太慢了，帮我找机会超过去。"

VLA天然具备理解自然语言的能力。这不是把一个语音助手和一个驾驶系统硬拼在一起，而是在同一个模型里同时处理语言理解和驾驶决策。

语言不再只是一个附加功能，它成了驾驶决策的一部分。

五、训练一个VLA模型需要什么？

说完了推理端，我们来看训练端。很多人好奇——VLA这么厉害，它怎么训出来的？

核心答案就一个词：数据。

但这个数据和你想的不一样。VLA的训练数据不是简单的"图片+标注"，而是一种全新的数据格式：

场景视频 + 语言描述 + 对应的驾驶动作）三元组

举个例子：

一段10秒的行车记录仪视频，画面内容是一个左转弯场景。

对应的语言描述是："在路口左转，注意对向直行车辆，等待间隙后完成转弯。"

对应的驾驶动作是：前3秒匀速直行，第4秒开始减速，第6秒方向盘左打30度，第8秒加速驶出弯道。

成千上万、成百上千万条这样的三元组数据，喂给模型训练。

数据从哪来？两个渠道：

第一，真实道路数据。

量产车跑在路上，每时每刻都在产生数据。摄像头画面、车辆控制信号（CAN总线数据）、GPS轨迹、IMU数据，全都可以自动采集。

特斯拉有几百万辆车在路上跑，这就是它最深的护城河。国内的蔚小理、华为、比亚迪，也在拼命上量——上量不是为了卖车，是为了采数据。

采回来的数据做后处理：用自动标注工具给场景打标签，用大模型自动生成语言描述，再和CAN总线里的方向盘油门刹车信号对齐。一条三元组数据就有了。

第二，仿真数据。

真实数据永远不够。特别是那些corner case——翻车、侧翻、行人鬼探头——这些你没法在真实道路上主动采集。

所以需要仿真。

在仿真环境里，你可以生成任意场景：暴雨、大雾、逆光、道路塌方。而且仿真里的数据自带精确标注，不需要人工标注。

NVIDIA的DRIVE Sim、Waymo的仿真平台，都是为了批量生产训练数据。

有了数据，训练过程一般分三步：

第一步，预训练。用海量的互联网图文数据训练视觉编码器和语言模型的基础能力。这一步不涉及驾驶，就是让模型学会"看"和"说"。

第二步，微调。用驾驶领域的三元组数据做微调，让模型学会把"看到的场景"和"应该执行的动作"关联起来。

第三步，强化学习。让模型在仿真环境里自己跑，跑得好给奖励，跑得差给惩罚。不断优化它的驾驶策略。

这三步和ChatGPT的训练流程几乎一模一样——预训练、SFT（有监督微调）、RLHF（基于人类反馈的强化学习）。只不过输出从文字变成了驾驶动作。

你看，智能驾驶和大模型，在技术底层其实是同一件事。

六、VLA面临的三大挑战：别光吹，也得说问题

技术很性感，但离量产还有几座大山要翻。我不当吹鼓手，实打实说三个问题。

第一座山：推理速度。

开车这件事，对延迟的要求是毫秒级的。

你踩刹车，100毫秒内车必须有反应。200毫秒以上，在120km/h时速下，车已经往前冲了6.7米。

大语言模型有多慢你是知道的。ChatGPT回答一个问题要好几秒，token一个一个往外蹦。

VLA面临同样的问题。模型参数量一大，推理就慢。但驾驶场景不允许你慢。

怎么解？

业界正在从几个方向突破：

模型蒸馏——用大模型训练小模型，保留80%的能力，推理速度快5倍。

专用芯片——NVIDIA的Thor、地平线的征程6，都在做针对Transformer推理的硬件加速。

稀疏推理——不是每一帧都需要完整的推理。直道上一切正常，模型可以"偷懒"，只有遇到复杂场景才全力运转。

目前头部方案已经能做到50-100毫秒级的推理延迟，勉强够用。但要做到人类驾驶员的反应速度（150毫秒左右），还需要继续优化。

第二座山：安全性验证。

这可能是最大的问题。

传统的模块化方案，每个模块的行为是可预测的。你设定了规则"前方障碍物距离小于10米就刹车"，它一定会刹车。你可以穷举测试。

VLA是个端到端的大模型。你没法穷举测试它在所有场景下的行为。你甚至没法完全理解它为什么在某个瞬间做了某个决策。

这对安全性验证来说是噩梦级别的挑战。

怎么证明一个VLA模型"足够安全"可以上路？目前没有标准答案。

行业正在探索的方向包括：

形式化验证——用数学方法证明模型在某些关键场景下的行为边界。

影子模式——VLA在后台运行，和传统方案的决策做对比，持续验证但不实际控车。

安全笼架构——VLA做主驾驶决策，但套一层规则化的安全层。VLA想做的任何动作，如果违反了安全底线（比如碰撞检测），安全层直接否决。

最后这个方案最现实，也是目前量产车大概率会采用的架构。VLA负责"聪明"，安全层负责"兜底"。

第三座山：数据壁垒。

前面说了，训练VLA需要海量的驾驶三元组数据。

这个数据，不是谁都有的。

特斯拉靠几百万辆车采集，这是它独家的数据飞轮。Google靠Waymo的无人车队，跑了几千万英里的真实道路。

国内呢？

蔚来有大几十万辆车，小鹏有大几十万辆，理想超过了一百万辆。这些量产车每天在路上跑，每天都在产生数据。

但华为和大疆这样的方案商，自己不造车，数据要靠合作车企提供。数据的量和质都受制于人。

纯创业公司就更难了。没有车队，没有数据飞轮，只能靠仿真和开源数据集训练。这在VLA时代会越来越吃力。

数据壁垒，可能会让智驾行业加速洗牌。

七、谁在做VLA？全球玩家盘点

光讲技术太干，我们看看谁在真正做这件事。

国外：

Google DeepMind的RT-2是VLA的开山之作。2023年发布，首次证明了"大语言模型可以直接输出机器人动作"这条路走得通。虽然它最初是用在机械臂上的，但架构可以迁移到驾驶场景。

Waymo被曝出在内部研发基于大模型的端到端驾驶方案EMMA，本质上就是VLA路线。Google的Gemini大模型是它的底座。

特斯拉的FSD v12虽然目前不是严格意义上的VLA（没有显式的Language组件），但马斯克多次暗示下一代FSD会整合多模态大模型能力。以特斯拉的数据量和工程能力，它一旦切VLA路线，速度会非常快。

NVIDIA在CES 2025上重点推了它的DRIVE Thor平台，专门为VLA类模型的车端推理做了硬件优化。它同时还开源了一些VLA的研究框架，想做这个领域的"基础设施"——卖铲子的永远不亏。

国内：

华为在VLA上投入非常重。ADS 3.0已经引入了大模型，而内部被称为"ADS Next"的下一代系统据说全面转向VLA架构。华为的优势是全栈能力——芯片（昇腾）、模型（盘古）、算法、数据工具链全自研，不受制于人。

小鹏去年拿出了基于大模型的端到端智驾方案，何小鹏在多个场合提到"VLA是智驾的终局技术路线"。小鹏的优势是自研芯片（图灵芯片）加上自有车队数据，闭环能力强。

理想也在布局VLA。理想的打法比较务实——先用端到端跑通高速和城区NOA，积累数据和经验，再逐步引入大语言模型的能力。一百多万辆的车队是理想最大的筹码。

还有一些专注VLA的创业公司值得关注，比如商汤绝影、毫末智行、元戎启行等。这些公司在模型层面有不错的积累，但最终能不能跑出来，取决于它们能不能拿到足够的数据和上车机会。

八、VLA会怎样改变你的用车体验？

聊了这么多技术，你可能想问：跟我有什么关系？

关系大了。

场景一：你不再需要学习怎么用智驾。

现在的智驾系统，你得知道在哪个界面开启NOA、什么时候该接管、什么路段能用什么不能用。这些心智负担对普通消费者来说是很重的。

VLA时代，你直接说话就行。

"走高速去上海，路上帮我找个服务区休息一下。"

车听懂了，自己规划路线，自己开，到了合适的服务区自动提醒你。

你不需要理解任何技术概念。你就当它是一个司机，用人话跟它交流。

场景二：它真的能处理那些让你心惊肉跳的场景。

加塞、鬼探头、电动车逆行。这些场景在中国的城市道路上每天都在发生。

传统智驾要么处理不了直接退出，要么处理得很僵硬让你恨不得自己来。

VLA因为有"常识推理"能力，处理这些场景会更接近老司机。它不是在查规则库，它是在"理解"这个场景，然后做出合理的判断。

场景三：车真正成为私人助理。

"我下午三点要到机场，帮我算算几点出发。"

"前面那个路口有家星巴克，帮我点杯咖啡，到了之后直接取。"

VLA把驾驶能力和语言理解能力融合在一个模型里，意味着车可以同时处理"开车"和"服务"两件事，而且两件事之间可以互相关联——它知道你要赶飞机，所以会开得快一些；它知道你要取咖啡，所以会选择更靠近门店的车道停车。

这不是两个系统的拼接，是一个系统的自然涌现。

九、终局之战：VLA到底是不是智驾的答案？

说到这里，我想表达一个观点。

VLA不是答案。至少现在不是。

它在推理速度上还有瓶颈，在安全性验证上还没有成熟方案，在数据获取上还有巨大的壁垒。

但VLA代表的方向，几乎是行业共识——智能驾驶的终局，一定是一个统一的大模型，而不是一堆模块拼起来的流水线。

为什么？

因为人类就是一个统一的大模型。

你开车的时候，你的眼睛、大脑、手脚是一个整体。你不会先用一个模块识别障碍物，再用另一个模块预测轨迹，再用第三个模块规划路径。你看到、理解、行动，一气呵成。

VLA的野心，就是复刻这个过程。

而且历史经验告诉我们，在AI领域，大力出奇迹是真实存在的。GPT-3到GPT-4的飞跃，没有本质的架构创新，就是更多的数据、更大的模型、更多的算力。

VLA很可能会走同样的路。当数据从百万条变成十亿条，当模型参数从几十亿变成几千亿，当车端芯片的算力从几百TOPS变成几千TOPS——很多现在看起来难以逾越的问题，可能会自然解决。

这就是Scaling Law的魔力。

2026年，我们正站在智能驾驶的"ChatGPT时刻"前夜。VLA不会一夜之间改变一切，但它会像大语言模型改变互联网一样，从底层重塑整个智能驾驶的技术栈和产业格局。

今天看到这篇文章的人，两年后回头看，可能会发现——这就是那个拐点。

以上。

如果你觉得这篇文章让你对VLA有了更清楚的理解，转发给你那些还在纠结"智驾到底行不行"的朋友。

这个行业正在发生的变化，比大多数人想象的要快得多。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

VLA大模型上车:自动驾驶的＂ChatGPT时刻＂来了

最新文章

热门文章

随机文章

VLA大模型上车:自动驾驶的＂ChatGPT时刻＂来了

15万的燃油轿车月销2万,新势力花了这么多钱都没打垮它

清华&地平线:自动驾驶“打分”就够了?SparseDriveV2用超密集候选集刷新SOTA

最新文章

热门文章

随机文章