你想象中的自动驾驶,是什么样子的?
相信大部分人的答案,可以概括为:汽车或移动载具,将扮演一个高级的智能司机,随时随地都能带你抵达任何地域。你无需操心任何与驾驶动作本身相关的事物,只需要安心扮演一位乘客的角色,而唯一需要你着手的,也许只有欣赏沿途风景,或处理手头的工作,最多充当一名指挥官,告诉它你的目的地或者途经地点:——是的,这正是国际自动机工程师学会(SAE)所定义的L5级自动驾驶标准场景切片,也是全球范围内对于自动驾驶技术的终极梦想。这在工程上要求我们的车辆拥有接近甚至超越人类的通用式人工智能(AGI),具备理解、学习并执行任何智力任务的全时空、多场景能力。是的,它听起来非常符合我们当下的智能科学技术发展路径,也正是我们人类在历经程序预设脚本—深度学习—LLM/多模态模型—agent后,面向AGI时代技术蓝图的一大规模化典型应用场景。不过,我们的自动驾驶技术到底发展到什么程度了呢?答案也许会给你浇一盆冷水:以中国市场和相关法规建设为例,当前的主流市售品牌自动驾驶系统中,甚至还没有任何一家可以突破至全场景L3应用能力,所以于技术于法规,我们都暂且将它们称作“智能辅助驾驶系统”,也就是我们耳熟能详的智驾。听起来可能不尽如人意,甚至悲观。但从技术路线上讲,自动驾驶系统在过去几年已经历了质的飞跃。现代自动驾驶技术,早期遵循感知、决策、控制、执行四大层级的范式模型(文末有对此的相关解析,详见延伸阅读),主要依赖海量预设规则代码与高精地图。然而工程师们很快发现,现实世界的变量之复杂,远非人手能堆砌的代码数量级所能覆盖;更棘手的是,代码量的增加往往不仅不解决新问题,反而引发逻辑冲突。就在业内一筹莫展之际,科研人员将人工智能大模型搬上了车——自动驾驶的智能时代,便应运而生了。*本图由AI生成,图中激光雷达为概念示意图,非特定产品的官方规格,请勿作为技术依据引用一.魔法般的“端到端”黑箱:VLA模型的架构基础
基于现实世界多变的复杂场景与运动冲突,我们对经典的范式模型进行整合,引入端到端(End-to-End)模型这一黑箱架构,实际上就是神经网络。通过对模型进行大规模预训练,这个黑箱拥有了庞大的参数量。当摄像头或者其他传感设备捕捉到路面或其他场景信息后,将数据输入至该黑箱内部,产生了堪称魔法般的自我整合,能够直接实现转向角、加速度或未来轨迹等的输出,省去了中间人工定义的子目标或规则,从而可以应对更加复杂多变的综合场景。当然,之所以把此模型称作“黑箱”,并非因为这个过程归属于玄学,只是由于Transformer等典型架构在海量参数下发生量变到质变的涌现——复杂到难以逐行解释,却又确实有效。这就好比我们抬头仰望星空,虽然点点繁星本质上都是悬浮于宇宙的天体,但由于其超出人类想象的数量规模,我们往往难以洞悉它们全部的运行规律或宏观秩序,从而形成自然逻辑,只能对局部有一些定量感知。在这种模式下,我们只需要在前期通过给机器投喂视频和其他图像数据,进行线性而重复的动作投入,从而直接降低了工程师们的精力、脑力和时间成本,把更多的任务交给了机器本身。当然,这对科研人员也提出了更高要求,他们首先通过理论创新对上层模型进行框架塑造,而工程师们则更多地投身于调试与反馈工作,形成了分工明确而又富有效率的闭环模式。笔者之前的文章中有用乐高积木为例进行的大语言模型原理直观分析,虽然在纯粹的端到端模型中,还没有引入语言层,即LLM,但在输入到输出的基本原理上是有类似性的,均采用自回归式的序列预测,只不过前端输入词元类型呈现出文本化和动作(轨迹)化的差异。端到端模型除了深度学习还会采用强化学习这种基础训练方式,让模型在仿真器中试错学习,通过引入的损失函数(通常由“撞车”等事件构成的奖励函数定义),强化了车辆的轨迹稳定性。VLA作为自动驾驶领域当前较为主流的技术路线,正是端到端模型的分支产物。*早期遵循感知、决策、控制、执行四大层级的范式模型
二.简单高效的预判与连贯:引入LLM的直观意义
端到端让自动驾驶系统开始进入真正意义上的智能领域,这次,它总该完美了吧?但技术的创新和更迭是无止境的——纯粹的端到端也在实战中逐渐暴露了它的问题:在遇到复杂或陌生场景时,早期端到端由于缺乏纵向理解和时空推理能力,常常陷入一些“大脑掉线”的阻滞状态,更不用说像真人司机一样掌握足够的灵活性和驾驶流畅性。例如,面对横穿马路的行人,车辆可能因为其突然出现立刻刹车,而在行人逐渐离开的同时突然起步,完成条件反射式的运动执行。这种模式来源于一种单帧映射,对于即时的事件确实有其准确性,但现实中行人过马路往往没有这么简单。他也许会因为车辆的出现犹豫不决,也许立即停下,也许加速通过。总之,他的行进速度注定不会是线性变化的,充斥着极大的随机性。车辆在这个过程中,由于线性的起步或刹车,产生强烈的顿挫感,给驾驶员和乘客舒适度造成了极大折损。更为极端的情况是,当面对另一车辆的突然出现,行人也许会突然驻足静止在马路中央。由于端到端对当前的驻足状态已经做出了即时响应,面对不再变化的行人障碍物,车辆大概率将愣在原地,既不会做出重新起步的选择,又不会进行主动绕道,也就是在人车博弈过程中陷入了一种被动的僵持状态。那么怎么解决这种问题呢?或许我们可以针对其核心缺陷入手:除了上述的时空推理缺陷,端到端对一些非标障碍物、信号、高层指令缺乏足够的理解力,对罕见场景(专业术语称作长尾场景:Corner Caces)几乎零泛化,同时由于其黑箱机制缺乏可解释性,给工程师带来了巨大的担责挑战。那么,问题出在哪我们就解决哪——究竟存不存在一种方案,可以像人类一样将模型的智能泛化,能够拥有高度的理解和推理能力,对时空进行全局掌控呢?这时,我们自然联想到了大语言模型(LLM)。所谓的VLA,是Vision-Language-Action的缩写,即视觉—语言—动作模型。"Language"便是我们嵌入其中的创新关键,即大语言模型(LLM)。大语言模型作为当前最成熟,市场规模最大的生成式ai产品,拥有着天然优势:1.界面革命:自然语言作为通用接口,带来了极大的人机沟通优势。当语言层(Language)被嵌入到视觉和执行层之间时,所有的车辆任务,实时动作乃至决策链条都会被自然语言同步解释。这使自动驾驶模型的可读性大大增强,工程师们对于技术落地的实时修正,调试以及车辆安全规则的完善拥有了更高阶的掌控力。这个过程与vibe coding有些许类似,虽然自然语言无法作为剖析其第一性原理的工具,但给予了工程师一个由意图驱动的开发过程,让系统的发展路径有迹可循。2.推理和泛化:大语言模型推理能力主要来源于其在海量文本数据上的预训练。模型通过学习人类语言的结构和语义,能够理解和生成自然语言,从而在一定程度上模拟人类的推理过程。这一特点,完美适配了我们对模型时空推理能力,非标理解能力,长尾事件泛化能力的追求。语言作为人类思维输出的工具,可以通过对先前信息的重定向和结构重组,组合生成全新的思维产物。这让机器同步获得了在未见过的环境、任务或视觉条件下仍能正确理解指令并生成有效动作的能力。在先前行人骤停的场景下,模型也许会借助自然语言推理出这样一条完整的思维链:“我们的车辆前方出现了一名行人,他正在以一定速度沿着人行横道穿行,这个过程中,他的速度也许会因为主观或客观因素发生变化,甚至因为前方突发的状况瞬间归零,所以我们应该罗列出尽可能多的可能性,如果他正常行进,我们应该匀速前进,如果他提升速度,我们应该同步提速,如果他降低速度,我们应该缓慢行驶,如果他立即停下,我们应该采取刹车动作,并采取可能的绕行。”这条思维链中的词句被分割成语义词元(Token),与先前的视觉数据词元共同作用并进行自回归,综合影响了系统输出的结果。所以系统获得输入的同时,不仅有即时的输出,还借助语言层,对即将发生的事情进行完整,综合化的语义推理,完整叙述了一条囊括过去,未来和现在的时间线及其对应事件,这样一来,不仅更容易处理突发状况或者未知事物,还能使动作更加连贯,兼具了预判性和连贯性,所以这就是为什么我们会直观感受到,在VLA加持下,车辆的行驶会越来越像老司机,丝滑、流畅,兼顾防御性驾驶的预判核心。3.降本增效:从早期的自然语言处理(NLP),到现如今大语言模型的如日中天,人工智能发展历史一直紧紧围绕着复刻或模拟人类思维来展开。而语言,作为人类思想集中表达的工具和载体,成为我们最为广泛的信息元。所以,随着Transformer架构成为主流,文本词元自诞生之日起,便自然成为了最为海量、低成本且高效的神经网络输入基本单元。无论是视觉词元、音频词元还是其他多模态词元,都要依托于特种化的采集设备和特定采集场景。无论从时间成本、经济成本还是人力成本角度出发,这无疑都是一项重大考验。而大语言模型可以借助庞大的互联网或者定向搭建的文本库,轻而易举地获得可输入数据,并且具有极强的零样本或少样本泛化能力——在某些场景下,只需要改变自然语言指令,LLM就能结合视觉信息理解新任务,无需重新训练模型。例如,当横穿马路的行人换成了横穿马路的小狗,模型也可以通过LLM强大的泛化能力理解已被替换的障碍物,做出相应的停车乃至绕行规划。4.成熟生态:大语言模型已经构建起当今人工智能领域最庞大、最活跃的软硬件生态,这为VLA的工程化落地提供了难以复制的加速度。在模型层面,从Llama、Qwen到DeepSeek等开源基座持续涌现,让研发团队无需从零预训练一个语言模型,而是可以直接选择适配车端算力的成熟模型进行微调与蒸馏。在部署层面,围绕LLM已经形成了高度优化的推理引擎矩阵,vLLM、llama.cpp、TensorRT-LLM等框架配合4-bit量化、投机解码、FlashAttention等技术,使得数十亿参数的语言模型也能以毫秒级延迟运行在Orin、Thor等车载计算平台上,满足自动驾驶对实时性的苛刻要求。在工具链层面,提示工程、检索增强生成、LangChain等编排框架已经高度产品化,工程师可以像搭积木一样将交通法规、驾驶常识、博弈策略注入模型的行为链中,让思维推理的实现成本大幅降低。更重要的是,这一生态背后汇聚了全球数百万开发者和数千家企业的开源技术和共创力量,从安全对齐、可解释性审计到合规认证,都已有成熟的方法论和实践经验可以借鉴。这种生态级的厚度,意味着VLA的进化不再是单点突破,而是可以持续吸取消纳整个LLM社区的进步红利——每当大语言模型在推理、常识、多语言理解上迈上一个新台阶,自动驾驶的语言层也同步获得更强的预判和连贯能力,让车辆从“会开车”稳步走向“懂驾驶”。如果说2024年是VLA从学术概念走向产业验证的元年,那么当下这一赛道正在经历从“能用”到“好用”的关键爬坡期。市场发展态势呈现出一种鲜明的双轨特征:一条轨道是头部厂商的激进上车,理想、小鹏、华为、元戎启行等玩家已将VLA架构明确写入量产时间表,端到端+VLM(视觉语言模型)的双系统方案率先在高阶智驾车型上落地,试图用语言层的常识推理填补纯端到端在长尾场景上的短板;另一条轨道则是创业公司与科技巨头的架构竞赛,Wayve的LINGO-2、英伟达的Groot、谷歌的RT-2以及国内银河通用、千寻智能等具身智能企业的涌现,让VLA迅速从自动驾驶外溢至机器人通用操作领域,形成了一种“车-机同构”的模型范式迁移——因为无论是四轮车辆还是双足机械,面对开放世界的物理交互时,所需要的时空推理、指令理解和动作规划能力在底层逻辑上高度同源。这种车机联动的市场格局,正在为VLA构建一个远比单一自动驾驶更为广阔的落地场景矩阵,也让相关的基础模型、仿真环境和数据飞轮建设获得了跨越行业的资本和人才密度。
然而,市场的热烈追捧并不能掩盖一个事实:VLA的终局,极大概率不是语言模型的单兵突进,而是与世界模型等并行技术路线走向深度融合。
这正是未来发展的核心悬念所在。当前VLA中的语言层,本质上是借助文本中的先验知识进行“脑补式”推理——它从海量语料中学习到“行人可能突然停下”“雨天路面湿滑”“施工区域需要减速”这类常识,并将其投射到驾驶场景中。但这种推理是符号化的、统计学意义上的,而非对物理世界因果律的直观把握。当一辆VLA驱动的车辆面对一个从未在文本中充分描述过的复杂物理交互时——比如狂风中一棵树的摇摆轨迹恰好与邻近车辆的行驶路线形成动态盲区——纯粹依赖语言推理就可能暴露出物理直觉的缺失:它知道风大会吹落树枝,也知道盲区危险,却难以精确推演这棵“这棵树”和“这辆车”在未来三秒内的时空耦合关系。
这正是世界模型(World Model)试图攻克的壁垒。世界模型的核心追求是让系统学习物理世界的内在动力学,构建一个可进行推演的隐式世界表征。它不依赖语言标签,而是通过观察海量视频和传感器数据,自发地“理解”物体运动的规律、遮挡关系、光影变化乃至流体运动。由于本文重点关注于VLA的综合解析,所以在这里不对其展开过多叙述。
VLA与World Model的并轨将构成一种极具想象力的认知架构,本质上是让系统同时拥有人类大脑皮层相对年轻的符号推理能力和皮层下古老而精密的物理直觉。一个可能的融合形态是:语言层负责战略性、常识性和规则性的高层决策——理解交通标志、解读交警手势、判断对方驾驶员的社会意图,而世界模型负责战术性、物理性的毫秒级推演——精确预测物体的运动轨迹、评估动态遮挡风险、模拟不同动作序列导致的连续状态变化。语言层回答“应该注意什么”和“如果发生什么意味着什么”,世界模型则回答“物理上将会发生什么”。
这也将根本性地改变VLA当下的短板。目前VLA的推理频率仍受限于语言模型的解码速度,难以在100毫秒级别完成复杂的思维链推理,而对飞石、坠落物等需要瞬时物理响应的场景,语言推理天然滞后。世界模型的内部模拟则可以并行于语言推理,提供一种“快系统”式的直觉辅助,使模型在语言推理尚未完成时就已经通过模式识别产生了对危险的本能预判。反过来,世界模型的推演往往存在长期一致性的崩塌问题,而语言模型提供的结构化常识恰好可以作为约束条件,锚定那些物理上可能但交通意义上不合逻辑的演化路径——一辆对向车道的社会车辆,物理上可以突然转向,但交通规则和经验常识让这种可能性极低,语言层可以在世界模型的概率分布上施加这种先验。
从更宏观的产业视角看,这种融合趋势也将重塑技术栈和开发范式。数据层面,未来的训练将需要同时覆盖文本语料、视频数据和高精度的物理仿真数据,形成一种多模态、多颗粒度的联合预训练体系;架构层面,VLA中的语言模型和世界模型可能共享底层视觉编码器,但在解码端分别输出语义动作建议和物理一致性评估,最终在动作执行层进行仲裁与融合。甚至,语言本身也可能从单纯的文本进化为一种更深层的“认知中间件”——不再直接用自然语言输出推理链,而是将推理过程浓缩为更高维的隐式表征,仅在对人解释时解码为文字,从而同时获得推理的深度与推理的速度。
站在2026年的节点回望,VLA的贡献已经远不止于让车变得更像老司机。它真正的范式意义在于,第一次在工程实践中将符号化的知识与亚符号化的感知-运动系统拉通,为大模型通往物理世界打开了一条可验证的通道。而它未来的走向,将取决于整个行业能否在语言推理的广度与世界模型的深度之间找到那个精妙的平衡点——既不让语言层退化为可有可无的锦上添花,也不让世界模型在缺乏常识约束的自由演化中重蹈纯仿真器缺乏真实性的覆辙。当这两个系统真正学会彼此对话、彼此校正,我们或许才第一次看到,一台机器在应对物理世界的无常时,既能像哲学家一样思考,又能像猎手一样行动。
从手写规则到端到端黑箱,再到语言层的嵌入,自动驾驶的每一次进化,都在逼近同一个理想——让机器既拥有猎手般的物理直觉,也拥有哲学家般的思考能力。VLA不是终点,但它第一次让我们确信,通往那扇门的路已经铺到了脚下。现代自动驾驶技术,早期遵循感知、决策、控制、执行四大层级的范式模型,主要依赖工程师事先写好的海量代码(预设脚本)以及高精地图导航的数据指引,具有极高的规范性、可读性、逻辑性和可维护性。从理论上来讲,这非常符合人类运动的逻辑:摄像头和传感器充当了车辆的眼睛,作为车辆理解世界的入口,对周围环境进行实时感知和数据采集;高精地图、GPS/RTK和惯性测量单元(IMU)则作为电子向导,为车辆提供了上帝视角的另一双眼睛,满足车辆自身定位与姿态稳定。真正作为大脑的是工程师预编的数以千万计的代码规则,包括全局规划、行为决策以及运动规划等;拿到了大脑编写好的“轨迹草稿”,PID、MPC等经典控制算法及其相关下位机硬件开始充当车辆的小脑,可以精准控制刹车、油门、方向盘等执行元件——具体过程是控制模块发出的数字指令由线控系统接收并驱动硬件,具体末端执行参量则涉及方向盘转向电机的位置、速度或力矩,油门开度,制动液压力等。同时,还必须有一套安全冗余系统进行备份,在主系统失效时立即接替并完成安全停车。
这套架构在理想化的结构化道路中表现出色,但面对现实世界无穷无尽的变量与边缘场景,规则代码的堆砌终究触碰到了天花板——而这,正是本文所述智能时代开启的逻辑起点。