特斯拉FSD V14 / 小鹏VLA 2.0 / 华为ADS 4.0 / 蔚来&理想——四条路线,一个终局
2026年春天,中国自动驾驶行业的竞争烈度达到了前所未有的程度。
3月2日,小鹏宣布第二代VLA全量推送,何小鹏称之为"开启L4时代的物理世界大模型"。几乎同一时间,华为ADS 4.0已在11家合作车企的28款车型上量产落地,国内首个高速L3商用认证到手。大洋彼岸,特斯拉FSD V14.2已在硅谷跑出了准L4级的表现,V14.3即将发布,马斯克喊出了"端到端无监管驾驶"的目标。

围绕"车怎么理解这个世界"这个核心问题,中美玩家给出了完全不同的技术答案。而这些答案之间的分歧与交汇,正在定义自动驾驶下一个十年的走向。
一、先搞清楚一个概念:什么是VLA、世界模型和端到端?
如果你最近关注自动驾驶新闻,一定被VLA、世界模型、端到端这几个词反复轰炸。它们之间的关系其实没那么复杂。
端到端(End-to-End)是一种系统架构思路:不再把感知、决策、规划、控制拆成独立的模块,而是用一个统一的神经网络,从摄像头像素输入直接到方向盘转角输出。特斯拉从FSD V12版本开始全面切换到端到端架构,用一张大网替换了超过30万行C++代码。
VLA(Vision-Language-Action)是在端到端基础上的进化:V是视觉感知,L是语言模型(提供推理和理解能力),A是动作输出。本质上是把大语言模型的"思考"能力注入自动驾驶系统,让车不仅能"看",还能"想"。小鹏、理想是VLA路线的代表。
世界模型(World Model)则走了另一条路:不是直接模仿人类驾驶行为,而是让系统先"理解"物理世界的运行规律——重力、惯性、碰撞、遮挡——然后基于这种理解做出决策。华为、蔚来倾向于这一方向。
一句话总结:VLA相信"看足够多的数据,就能学会开车";世界模型相信"理解了物理规律,就能应对一切场景"。端到端是它们共同的底层架构。而在实际工程中,几乎所有头部玩家都在走向两者的融合。
二、特斯拉FSD V14:纯视觉的极致进化
先看特斯拉,它始终是自动驾驶技术的定义者。
FSD V14系列在2025年底开始推送,代表了特斯拉自V12以来最大幅度的架构升级。在ICCV 2025计算机视觉大会上,特斯拉自动驾驶副总裁Ashok三年来首次公开了FSD的内部架构,外界终于看清了这套系统的全貌。
核心网络的输入包括七路高分辨率摄像头视频、车辆运动信息、导航路线和音频信号,输出则涵盖语义分割、3D占用网格、3D高斯重建、语言推理和最终的控制动作。换句话说,特斯拉的FSD已经事实上演变成了一个多模态大模型系统,采用了类VLA的框架。
特斯拉FSD V14 关键参数:
技术路线:纯视觉端到端 + 多模态大模型(类VLA)
感知方案:8颗摄像头,360度覆盖,无激光雷达
模型参数:较V13提升4.5-10倍
无接管里程MPI:V14达1000英里以上(V13为441英里),提升超20倍
V14.3特性:融合xAI Grok,视觉帧率48Hz,迈向无监管驾驶
Robotaxi进展:Cybercab计划2026年量产,Austin已试运营
V14相比V13的最大跃进不是某个单一功能,而是系统认知层级的升级。V14的中间层会同时输出占用网格(理解空间被什么占据)、3D高斯重建(理解物体的三维形态)和语言推理(理解"为什么"要这样开),三层认知统一在一个网络里完成。
特斯拉的另一个独特优势是闭环仿真。Ashok特别强调,传统的loss函数无法代表真实驾驶性能——同一场景下减速、绕行、停车都是合理选择——所以特斯拉建立了神经网络驱动的闭环仿真器,让模型在虚拟世界中完整"开一遍"再打分。这套"数据→模型→仿真→评估→再训练"的飞轮,是特斯拉真正的护城河。
三、小鹏VLA 2.0:去掉"语言"的VLA
小鹏的第二代VLA可能是目前国内最值得关注的自动驾驶技术方案。
有趣的是,它虽然叫VLA,但最大的技术突破恰恰是去掉了传统VLA中的"语言"转译层。传统VLA方案(如谷歌的RT-2)需要先把图像编码为类似语言的token,经过大语言模型推理,再把语言token转译成动作指令。整个过程要经历"视觉→语言→动作"的三步转换,每一步都会引入延迟和信息损失。
小鹏VLA 2.0的核心推理引擎是一个原生多模态Transformer大模型,直接处理视觉、语言、车体状态和动作轨迹四种模态,跳过了语言模型作为中间转译层的环节。这与特斯拉FSD V14的架构思路惊人地相似——Ashok公开的架构图中,核心也是一个叫LNN(大型神经网络)的多模态模型,而不是LLM。
小鹏第二代VLA 关键参数:
技术路线:原生多模态物理世界大模型(去语言转译层的VLA)
感知方案:纯视觉为主,不依赖激光雷达和高精地图
训练数据:50PB,每秒处理53亿字节视觉信息
迭代速度:120天468个版本
算力平台:自研图灵AI芯片,最高3000 TOPS(Robotaxi版)
推送状态:2026年3月全量推送,大众为首发客户
小鹏在云端还有一套世界模拟器,输入实车采集的世界状态数据,让模拟器生成更多驾驶决策并打分评估,然后反馈到VLA 2.0模型进行参数更新。这意味着小鹏实际上也在做世界模型——只不过把它放在了云端训练侧,而非车端推理侧。
何小鹏对这套系统的信心很足。他和自动驾驶团队立了个赌约:如果2026年8月30日VLA在国内达到特斯拉FSD V14.2在硅谷的效果,他会在硅谷建一个中国风味食堂;如果达不到,自动驾驶负责人要在金门大桥裸跑。
四、华为ADS 4.0:世界引擎 + 世界行为模型
如果说小鹏和特斯拉走的是"数据驱动,让模型学会开车"的路线,华为走的则是"先建立对物理世界的理解,再做驾驶决策"的路线。
2025年4月发布的ADS 4.0采用了全新的WEWA架构——云端的World Engine(世界引擎)加车端的World Action Model(世界行为模型)。
云端的世界引擎用扩散生成模型技术制造极端驾驶场景。普通路测可能跑几百万公里才遇到一次鬼探头或前车急刹,华为的世界引擎可以生成密度是真实世界1000倍的难例场景,实现"AI训练AI"。这种能力对解决长尾问题——那1%需要花99%精力去处理的极端场景——至关重要。
车端的世界行为模型则融合了全模态感知(摄像头、激光雷达、毫米波雷达)和MoE(混合专家)能力,同时完成轨迹生成和场景意图理解。
华为ADS 4.0 关键参数
技术路线:WEWA架构(世界引擎 + 世界行为模型)
感知方案:多传感器融合(3颗激光雷达+11颗摄像头+毫米波雷达)
性能提升:端到端时延降低50%,通行效率提升20%,重刹率降低30%
L3认证:国内首个通过高速L3商用认证
合作规模:11家车企28款车型,搭载量突破100万辆
路线规划:2025年高速L3试点,2026年高速L3规模商用+城市L4试点
华为的另一个差异化优势在于硬件冗余。ADS 4.0依然保留了激光雷达方案,配合舱内激光视觉传感器和分布式毫米波雷达,构建了全目标、全时速、全方向、全天候、全场景的防碰撞体系。在"安全冗余"这件事上,华为比纯视觉派多了一层物理世界的保险。
当然,硬件成本也是华为绕不开的问题。有分析指出,华为HI方案的成本大约是特斯拉的5.6倍。能否通过规模化量产把成本打下来,是华为智驾路线能否从高端向主流市场渗透的关键。
五、蔚来与理想:世界模型派与VLA派的另外两张面孔
蔚来的智驾路线更偏向世界模型方向。蔚来认为物理规律是确定的,通过模拟物理世界的运行方式来训练驾驶模型,可以更好地应对从未见过的极端场景。这种思路在理论上更优美,但工程难度也更大——如何把抽象的物理规律编码进神经网络,目前没有标准答案。
理想则站在VLA阵营的前沿。2024年10月全量推送端到端+VLM(视觉语言模型)双系统后,理想的自动驾驶研发副总裁郎咸朋公开表态:"VLA就是自动驾驶最好的模型方案。"理想的AD Max系统在29亿公里行驶数据中表现出了极低的误触发率,AEB误触发率低于每30万公里一次。
但行业内的共识正在形成:VLA和世界模型并不矛盾,未来大概率走向融合。正如自动驾驶之心组织的多次圆桌论坛所讨论的,最终的方案很可能是——基于世界模型的隐式表达做大规模预训练,然后用VLA的方式生成多模态轨迹,世界模型的输出可以做安全护栏、轨迹评估,甚至车机可视化。不存在谁替代谁,而是各取所长。
六、暗线:芯片之战
自动驾驶的竞争表面上是算法和数据的较量,底层其实是算力的战争。
特斯拉正在准备AI5(HW5.0)芯片,算力预计达到2000-2500 TOPS。小鹏自研的图灵AI芯片已在量产车型上搭载,单颗有效算力750 TOPS,Robotaxi版配备4颗,总算力达3000 TOPS。华为的MDC平台一直是国内最强的智驾计算平台之一。地平线的征程6P以560 TOPS的算力成为国产智驾芯片的标杆,下一代征程7将与特斯拉AI5同步推出。
端到端架构对算力的需求远超传统模块化方案。以小鹏VLA 2.0为例,每秒需要处理53亿字节的视觉信息,通过"芯片-编译器-模型"联合优化才把编译效率提升了12倍。没有足够强的车端算力,再好的模型也只是PPT。
七、2026:L3元年,L4前夜
从法规层面看,2026年的确是L3的元年。北京已于2025年4月实施自动驾驶汽车条例,明确L3车辆可在高速场景合法上路,系统激活期间事故责任主要由车企承担。工信部批准了华为ADS 4.0的高速L3商用认证。小鹏、广汽、极氪、奇瑞等多家车企都公布了L3量产时间表。
但技术层面的野心早已不止L3。
何小鹏说"完全自动驾驶将在未来1-3年内完全到来"。华为规划2027年城区L4进入商用。特斯拉的FSD V14.3目标直指无监管驾驶。所有头部玩家都在跳过L3,直接瞄准L4。这就像智能手机行业当年从功能机到智能机的跃迁——不是渐进式升级,而是一次范式革命。当汽车真的能"理解"世界而不仅仅是"识别"障碍物的时候,整个出行行业的游戏规则都会改写。
一组可以感受量级的数据:小鹏VLA 2.0在120天内迭代了468个版本,使用了50PB的训练数据。特斯拉FSD V14的无接管里程从V13的441英里飙升到9200英里以上,提升超过20倍。华为世界引擎生成的难例场景密度是真实世界的1000倍。这些数字说明,自动驾驶正在按照AI行业的速度进化,而不是传统汽车行业的速度。
八、最终的问题:谁会赢?
可能没有"赢家通吃"的结局。
特斯拉的优势在于全球最大的实车数据飞轮——超过900万辆车在路上持续采集数据——加上垂直整合的芯片-算法-车辆闭环。但它在中国市场面临本地化适配的巨大挑战,公交车道、胡同、潮汐车道等场景需要重新训练。
小鹏的优势在于中国场景的深度理解和全栈自研能力。VLA 2.0架构与特斯拉FSD V14高度相似,但在中国复杂城市环境中的适配远超特斯拉。大众成为其VLA 2.0首发客户,也意味着技术输出的商业化路径已经打开。
华为的优势在于生态。100万辆搭载量、28款合作车型、11家车企——这种规模化部署能力是任何车企的自研方案难以匹敌的。L3认证先行者的身份也赋予它在法规层面的话语权。
这三家之外,地平线作为第三方芯片和算法平台,正在走一条类似"中国版Mobileye"但更开放的路——不造车,只赋能,征程6P已拿下超40家车企品牌。如果说特斯拉、小鹏、华为是争夺终局的选手,地平线则是在铺设赛道本身。
自动驾驶的终局不取决于哪家公司的demo更炫酷,而取决于谁能第一个让普通人在日常通勤中真正放开双手、闭上眼睛——并且安全到家。
何小鹏在VLA 2.0发布时说了一个细节:他带着70多岁的妈妈体验了新系统,从最初的担心到如今的放心。"如果让妈妈都放心,妈妈都爱开,那就是真正的国民智驾。"
技术路线之争终将在这个朴素的标准面前分出高下。不是论文里的指标,不是发布会上的PPT,而是——你敢不敢让自己的妈妈坐上去。
2026年的答案正在路上。