一、从XPILOT到VLA:小鹏智驾的技术长征 1.1 2019 XPILOT起步:规则驱动初代智驾落地 1.2 2020-2022 XNGP成型:高速+城市高阶智驾量产落地 1.3 2023-2024 无图XNGP时代:两段式端到端架构成型 1.4 2025-2026 VLA大模型迭代:真正一体化端到端全面推送二、VLA2.0是纯视觉方案吗? 2.1 特斯拉:坚持无雷达纯视觉技术路线 2.2 小鹏VLA2.0:视觉为主、毫米波雷达兜底融合方案 2.3 多传感器双保险架构带来的利弊三、VLA2.0是纯粹的端到端吗? 3.1 先厘清:纯粹端到端模型核心定义 3.2 小鹏VLA2.0:三网络联合训练混合端到端架构 3.3 对比特斯拉FSD V14:极致单一黑盒端到端 3.4 四大核心架构差异拆解四、小鹏与特斯拉技术路线深度对比 4.1 核心参数直观对比表 4.2 模型结构与可解释性差异 4.3 驾驶风格与国内路况实测表现 4.4 数据闭环:中美场景数据各有优势五、图灵芯片:为VLA2.0量身定制的大脑 5.1 自研图灵芯片研发时间线 5.2 7nm图灵芯片核心硬件参数 5.3 专为端到端大模型优化的底层架构 5.4 车载三芯片集群部署方案与低延迟优势 5.5 图灵芯片VS特斯拉HW4.0算力路线对比六、总结:追随者还是开拓者? 6.1 小鹏技术路线紧跟特斯拉前沿 6.2 本土化改造:三大差异化核心设计 6.3 中美路况差异决定两条不同技术路线 6.4 小鹏的中庸保留了对中国的L3规则的合规空间 6.5 小鹏自动驾驶中长期发展规划
一、从XPILOT到VLA:小鹏智驾的技术长征
1.1 2019 XPILOT起步:规则驱动初代智驾落地
2019年,小鹏汽车基于首款产品G3,通过视觉感知和超声波融合,实现了全场景智能泊车,解决了中国特色的"停车难"问题。这是小鹏智驾的起点——XPILOT时代。彼时的智驾系统完全基于规则驱动:感知环节依赖2D目标检测和传感器融合,规控环节由数十万行人工编写的规则代码主导,执行环节则是简单的车辆控制。这套架构如同一个严格遵守交通手册的新手司机,能在结构化的高速公路上完成ACC自适应巡航和LCC车道居中辅助,但面对复杂城市场景时便力不从心——每一次变道、每一个路口都需要工程师预先编写对应的规则逻辑。
1.2 2020-2022 XNGP成型:高速+城市高阶智驾量产落地
2020年至2022年,小鹏智驾进入高速NGP阶段。2020年1024科技日,高速NGP首次开放试驾,在自动超越慢车、自动限速调节、优先车道选择等基础场景之上,增加了交通锥识别与避让、大货车规避、夜间超车提醒、故障车辆避让、拥堵道路超级跟车等一系列中国特色功能,可应对暴雨天、夜间、高复杂路况、无全球定位信号等多种极端情况。同年,小鹏还发布了行业首创的"全场景语音"功能,全球首创连续对话功能,让车载交互更接近人的日常交流。2021年,小鹏推出全球首款搭载激光雷达的量产智能汽车P5,并于5月发布VPA停车场记忆泊车——首个可量产且不依赖停车场改造的"最后一公里"泊车功能,让智能停车体验从停车位扩展至整个停车场。2022年9月,城市NGP在广州开启试点,小鹏成为首个让高阶智驾在城市场景量产落地的中国汽车品牌。同年,小鹏发布XNGP系统,首次引入BEV+Transformer架构,这是一次技术范式的重大跃迁——从基于规则的2D感知,迈向基于深度学习的3D环境理解。
1.3 2023-2024 无图XNGP时代:两段式端到端架构成型
2023年至2024年,XNGP全面铺开,智驾能力实现质的飞跃。2023年3月,全场景XNGP基于BEV+Transformer架构在广州、深圳、上海开通;11月,无图XNGP正式推送,摆脱了高精地图的束缚,开城进度大幅加速——12月扩至52城。2024年1月,累计开通243座城市;5月,XNGP完成100%无图化,智驾可用里程翻倍。7月,端到端大模型上车;8月,推出纯视觉自动驾驶方案;第四季度打通收费站、停车场闸机等断点,实现车位到车位自动驾驶。这一阶段的核心是Xbrain架构——XNet2.0融合纯视觉占据网络,实现动态BEV、静态BEV、占据网络三网合一,用超200万个网格3D还原可通行空间,精准识别50多个目标物,感知范围翻倍;XPlanner基于神经网络生成最佳运动轨迹,经海量数据训练使驾驶策略拟人化,减少前后顿挫50%、违停卡死40%、安全接管60%。然而,此时的端到端仍是"感知-规控"两段式架构,中间存在人为分界,并非真正意义上的单一端到端模型。
1.4 2025-2026 VLA大模型迭代:真正一体化端到端全面推送
2025年至2026年,小鹏智驾迈入VLA大模型时代,技术迭代速度前所未有地加快。2025年,小鹏推出第一代VLA模型,采用视觉-语言-行动架构,但保留了语言转译的中间步骤——视觉信息先转译为语言描述,再做决策输出。2025年11月科技日,何小鹏亲赴硅谷深度体验特斯拉FSD V14.2和Robotaxi后,立下一场充满挑战的赌约:若2026年8月30日前,小鹏VLA在国内达到特斯拉FSD在硅谷的表现,他将在硅谷捐建中式餐厅;反之,自动驾驶核心负责人需在金门大桥"裸跑"。同月,小鹏发布第二代VLA,核心变革是"拆掉语言的那堵墙"——从视觉-语言-动作的两段式转译,进化为视觉直接输出动作的多模态Transformer大模型。2026年3月,第二代VLA正式向全国用户全量推送,覆盖大路、小路、城区无导航道路,新增无导航NGP漫游、全场景原地起步P挡直启NGP等功能,综合行车效率提升23%。2026年4月,推送首月出行报告显示,新车首周VLA日开启比例达97.43%,月度活跃率96.97%,VLA使用行迹覆盖全国369座城市,智驾里程占比首次突破50%。2026年6月,OTA 6.2.0向P7+车型推送VLA2.0全场景辅助驾驶,决策延迟降至80ms以内。至此,小鹏智驾完成了从规则驱动到数据驱动、从模块化到端到端、从"全国都能开"到"哪里都能开"的三级跳。
二、VLA2.0是纯视觉方案吗?
2.1 特斯拉:坚持无雷达纯视觉技术路线
要回答这个问题,需要先看看特斯拉做了什么。特斯拉FSD坚持极端的纯视觉路线,完全弃用激光雷达和毫米波雷达,仅依靠8颗摄像头完成所有感知任务。2021年FSD Beta V9起正式弃用毫米波雷达,2026年V14系列仍维持这一配置——HW4.0平台搭载8颗高分辨率摄像头,前置最高像素达2896x1876,帧率36Hz,通过立体视觉和深度学习技术精准估计物体的距离和速度,同时引入占用网络将2D图像转化为3D空间表示。特斯拉的哲学很明确:人类仅凭双眼就能驾驶,AI也应只靠摄像头学习。2026年2月,特斯拉AI副总裁Ashok Elluswamy公开表示:"用摄像头就能解决自动驾驶问题,这一点再明显不过了。为什么不用摄像头?现在已经是2026年了。"
2.2 小鹏VLA2.0:视觉为主、毫米波雷达兜底融合方案
小鹏VLA2.0走了一条截然不同的路线——"以视觉为主、多传感融合"的中间路线。系统采用12颗摄像头(12V)+3颗毫米波雷达(3R)的传感器配置。在感知策略上,VLA2.0采用"视觉主导、雷达兜底"的融合方案:12颗摄像头负责主要的环境感知和场景理解,捕捉高密度的原始图像信息;3颗毫米波雷达在恶劣天气(暴雨、浓雾、黑夜)和特殊场景(鬼探头、静止障碍物)中提供额外的距离和速度校验。这种配置既享受了纯视觉方案在信息密度上的优势——摄像头捕获的原始图像信息远超激光雷达输出的稀疏点云,理论上能识别更多类型的物体和场景——又避免了纯视觉在极端条件下的感知盲区。
2.3 多传感器双保险架构带来的利弊
更重要的是,小鹏VLA2.0保留了毫米波雷达的后融合规则作为安全兜底。这意味着在端到端大模型输出的决策之外,系统还有一层独立的安全校验机制。例如,当毫米波雷达检测到前方突然出现的静止障碍物而摄像头尚未完成视觉确认时,AEB(自动紧急制动)可以独立于大模型决策直接触发制动。这种"双保险"设计显著提升了系统在边缘场景下的安全性,但也意味着小鹏VLA2.0在架构上比特斯拉多了一层人为设计的规则壁垒,距离"极致纯粹的端到端"尚有半步之遥。
三、VLA2.0是纯粹的端到端吗?
3.1 先厘清:纯粹端到端模型核心定义
要回答这个问题,需要先理解什么是"端到端"。(此处引用第一篇《从端到端和特斯拉说起》中的概念)端到端大模型是指从原始传感器输入直接到车辆控制输出的单一神经网络,中间不经过人工定义的模块化拆分。这与传统智驾的"感知-预测-规划-控制"多模块拼接架构形成鲜明对比——模块化架构中,每个模块独立训练、独立优化,模块之间的接口由人工定义,信息在传递过程中不可避免地存在损耗和误差积累。
3.2 小鹏VLA2.0:三网络联合训练混合端到端架构
小鹏VLA2.0采用的是VLA(Vision-Language-Action,视觉-语言-行动)架构。需要特别说明的是,小鹏VLA2.0中的"Language"与传统理解不同——它不是指人类自然语言,而是指系统内部的结构化语义表示。VLA2.0是一个三网络联合训练的一段式端到端系统:感知网络负责从摄像头和雷达输入中提取环境特征,构建对周围世界的理解;认知网络基于这些特征进行场景推理和决策判断;行动网络输出具体的驾驶动作(转向角度、加速踏板开度、制动强度)。三个网络在训练阶段联合优化、端到端反向传播,但在工程部署上分为多子网络运行。
3.3 对比特斯拉FSD V14:极致单一黑盒端到端
与特斯拉FSD V14的极致纯粹端到端相比,小鹏VLA2.0在模型结构上存在结构性差异。特斯拉采用单一超大Transformer单模型,参数量约30亿,直接从原始摄像头数据输出车辆控制指令,C++代码精简至2000多行,是一个接近"黑盒"的系统。小鹏VLA2.0则是三网络联合训练,工程上分为多子网络部署,模型结构相对复杂,但也因此具备一定的可解释性和工程可控性。
3.4 四大核心架构差异拆解
- 中间特征输出小鹏VLA2.0可以输出BEV(鸟瞰图)、障碍物可视化等中间结果,工程师能够查看系统在每一帧"看到了什么""理解了什么",这对问题定位、系统优化和监管合规极为重要。特斯拉FSD V14则无显式中间感知结果,完全黑盒,外界只能看到输入和输出,无法窥见内部的推理过程。
- 手写规则保留特斯拉仅保留底盘硬件安全代码(如防抱死、车身稳定控制等底层功能),所有驾驶决策类规则均已删除,模型的驾驶行为完全由数据驱动。小鹏VLA2.0则保留了安全硬约束、毫米波AEB触发、地图限速遵守等少量规则兜底。这种"端到端大模型+安全规则兜底"的混合架构,体现了小鹏"激进技术探索+保守安全底线"的产品哲学。
- 外部先验依赖特斯拉完全无地图,仅靠视觉自主理解道路——系统通过摄像头实时"读懂"车道线、交通标志、路口拓扑,不依赖任何预先加载的地图信息。小鹏VLA2.0则依赖普通导航轻地图的拓扑约束——系统需要知道前方路口有几条车道、各车道通向何方,这些信息来自导航地图的提前标注而非实时视觉理解。这种差异使得特斯拉在全新未知道路上的泛化能力更强,而小鹏在有地图覆盖的道路上规划更为精准。
四、小鹏与特斯拉技术路线深度对比
4.1 核心参数直观对比表
| | |
|---|
| | |
| 保留安全硬约束、毫米波AEB、地图限速等少量规则兜底 | |
| | |
| | |
| | |
| | |
| | |
| | |
| | 全球累计超1000亿英里行驶数据,影子模式全天候采集 |
表1:小鹏VLA2.0与特斯拉FSD V14技术路线对比
4.2 模型结构与可解释性差异
在模型架构上,特斯拉FSD V14采用单一超大Transformer,参数量30亿,是一个真正的单模型端到端系统。小鹏VLA2.0采用三网络联合训练,工程上多子网络部署,虽然训练阶段是一段式端到端,但推理阶段仍存在网络间的接口边界。特斯拉的架构更接近"生物学意义上的端到端"——就像人类大脑从视网膜信号直接到肌肉指令,中间没有显式的"感知科""认知科""行动科"。小鹏的架构则更像一个高度整合但仍有功能分区的"AI驾驶团队"。在可解释性上,小鹏VLA2.0具备明显优势。系统可输出BEV、障碍物可视化结果,工程师可以追踪"系统在这一帧看到了什么""为什么做出这个决策"。特斯拉FSD V14则是完全黑盒,其决策逻辑对外界不可见,只能通过输入输出的统计表现来评估系统性能。
4.3 驾驶风格与国内路况实测表现
在驾驶风格上,特斯拉提供了多种模式选择——从极度保守的"树懒模式"到激进的"疯狂麦克斯模式",用户可以根据个人偏好选择。小鹏VLA2.0的驾驶风格更偏向"均衡的老司机"——在广州晚高峰实测中,其通行效率比传统L2智驾和Robotaxi都快,驾驶效率比肩人类老司机。何小鹏实测20公里复杂小路仅接管1次,而同路线特斯拉FSD需要5次,国内城市道路适配性小鹏更占优。
4.4 数据闭环:中美场景数据各有优势
特斯拉拥有全球规模最大的自动驾驶数据体系——截至2026年累计收集超1000亿英里实际驾驶数据,全球数百万辆搭载FSD的车辆通过"影子模式"全天候采集数据,人工接管数据自动上传云端。小鹏的数据规模虽然不及特斯拉,但中国市场的复杂路况为其提供了更丰富的训练场景——城中村、无保护左转、电动车穿行、路边乱停车等中国特色场景的数据密度和多样性,是特斯拉在美国难以获取的。
五、图灵芯片:为VLA2.0量身定制的大脑
5.1 自研图灵芯片研发时间线
如果说VLA2.0是小鹏智驾的"灵魂",那么图灵芯片就是它的"大脑"。小鹏自研图灵AI芯片的故事,始于2020年芯片团队的搭建,历经四年打磨,于2024年8月宣布流片成功,2025年第四季度正式量产上车。图灵芯片是全球首颗同时应用于AI汽车、AI机器人和飞行汽车的通用智能芯片,这一跨域应用的设计思路体现了小鹏"技术同源"的战略理念——汽车需要自动驾驶,飞行汽车需要实时导航和稳定控制,机器人需要环境感知和动作规划,这些任务在底层计算需求上是相通的。
5.2 7nm图灵芯片核心硬件参数
图灵芯片采用7nm制程工艺,核心规格:40核ARM处理器架构,2个自研NPU神经网络处理器,2个独立ISP图像信号处理器;单颗算力750 TOPS(INT8),三颗集群部署总算力2250 TOPS,最高可运行300亿参数的大模型,能效比达到50 TOPS/W,远超英伟达Orin-X的25 TOPS/W。
5.3 专为端到端大模型优化的底层架构
图灵芯片的设计充分体现了"为端到端大模型量身定制"的理念。双NPU采用DSA特定领域架构设计,专门针对神经网络计算优化,算力利用率达100%,彻底消除冗余计算,比通用GPU效率提升20%。双独立ISP分工明确:一颗ISP专注为神经网络提供最高质量的感知输入,另一颗ISP负责为驾驶员呈现最清晰的可视化画面,图像处理速度比行业平均值快75%。在集成度与功耗层面,芯片面积压缩至英伟达Orin的68%,功耗降低40%,散热压力更小。
5.4 车载三芯片集群部署方案与低延迟优势
在VLA2.0的实际部署中,Ultra版车型搭载"2+1"图灵芯片架构:两颗芯片负责智驾大模型的实时推理,一颗芯片作为冗余备份和座舱AI计算。低配版本可用一颗或两颗,运行简化版VLA2.0。2250 TOPS的总算力支撑数十亿参数大模型车端流畅运行,VLA2.0决策延迟从传统方案200ms降至80ms以内,降幅60%。时速80公里紧急避让场景下,每缩短10ms反应时间,刹车距离缩短约22厘米,80ms低延迟让系统反应速度优于人类驾驶员。
5.5 图灵芯片VS特斯拉HW4.0算力路线对比
两者走了截然不同的优化路线:特斯拉HW4.0单芯片算力约720 TOPS,依靠极致模型蒸馏、专用AI编译器优化,低算力实现高效推理,成本、功耗控制更优;小鹏选择高算力储备路线,2250 TOPS总算力带来更大模型容量、更强多任务并行能力,为未来多年模型迭代预留充足升级空间,同时实现芯片供应链自主可控。小鹏的车端模型保留了相当的推理能力,其中庸的意义看官可自行领会。
六、总结:追随者还是开拓者?
6.1 小鹏技术路线紧跟特斯拉前沿
回顾小鹏智驾七年的发展历程,一条清晰的主线浮现出来:模型迭代追随特斯拉纯视觉方案,保持多传感融合与安全规则兜底。从XNGP的BEV+Transformer,到VLA1.0的视觉-语言-行动,再到VLA2.0的去语言转译多模态大模型,小鹏在算法架构上紧追特斯拉的技术前沿。何小鹏本人多次公开承认特斯拉在纯视觉和端到端领域的领先地位,2025年底亲赴硅谷体验FSD V14.2后更是发起内部赌约,这种"对标特斯拉、学习特斯拉"的开放姿态,使小鹏成为国内最接近特斯拉技术范式的智驾玩家。
6.2 本土化改造:三大差异化核心设计
小鹏并非特斯拉的简单复制者,核心差异化设计集中三点:
- 多传感器融合安全体系:保留毫米波雷达作为安全冗余,补齐恶劣天气、鬼探头等视觉感知短板;
- 可解释分层架构:三网络结构输出BEV可视化结果,方便故障定位、安全验证与监管落地;
- 自研图灵高算力芯片:自主可控算力底座,适配国内复杂路况持续迭代大模型。
6.3 中美路况差异决定两条不同技术路线
技术路线差异根源在于中美道路环境、数据体系完全不同:特斯拉拥有全球统一规整道路、千万级车辆影子模式,累计千亿英里纯视觉数据,足以支撑极简纯视觉、黑盒端到端方案;中国道路场景复杂度全球顶尖,城中村窄巷、非标电动车、无保护左转、占道乱停随处可见,小鹏必须叠加硬件冗余、安全规则兜底,是适配本土市场的务实选择。
6.4 小鹏的中庸保留了对中国的L3规则的合规空间
6.4.1 国内最新L3自动驾驶强制国标硬件硬性约束
工信部2026年6月公示《智能网联汽车自动驾驶系统安全要求》强制性国标报批稿,计划2027年7月1日正式实施,针对L3有条件自动驾驶划定不可突破的硬件与感知红线:
- 感知禁止纯视觉方案:L3级系统强制要求前向感知实现「摄像头+77GHz毫米波雷达」双传感器冗余融合,单一纯视觉架构无法通过L3准入测试,从法规层面直接堵死特斯拉FSD在中国落地L3的路径;
- 全链路硬件冗余要求:转向、制动、车载计算平台均需双冗余;系统失效后必须150ms内完成降级处置,独立硬件可触发最小风险制动,不能完全依赖大模型输出决策;
- ODD运行域透明化:车企必须完整公示系统可运行的道路、气象、光照边界,同时留存完整数据黑匣子,全程记录感知、决策、控制全链路信息,方便监管核查;
- 安全量化指标:系统致命事故率需低于10⁻⁷/小时,要求具备独立于AI模型的安全兜底机制。
6.4.2 小鹏VLA2.0现有架构天然适配L3合规,仅需小幅改动即可完成认证
小鹏选择「视觉为主、毫米波雷达兜底」的中庸路线,恰好匹配国内L3法规全部硬性门槛,无需推翻现有硬件与算法架构,仅做轻量化调整即可完成合规改造:
- 硬件层面无需重构全系标配12V+3R毫米波雷达双感知冗余,天然满足国标L3最低硬件要求;Ultra车型额外搭载激光雷达,可直接满足更高等级L4三重冗余标准。对比特斯拉全系8颗纯视觉摄像头,硬件底层不具备改造空间,无法满足L3双传感强制条款。
- 安全规则架构复用现有AEB兜底逻辑VLA2.0原生保留毫米波雷达独立后融合规则、硬件级AEB制动链路,这套独立于端到端大模型的安全校验模块,只需调整触发阈值、完善失效降级逻辑,就能满足国标「独立硬件最小风险策略」要求,不用重新开发整套安全控制系统。
- 可解释架构满足监管溯源需求VLA2.0可实时输出BEV鸟瞰图、障碍物识别、轨迹规划等中间可视化数据,只需新增标准化数据存储模块,即可满足法规对黑匣子全链路记录、故障追溯的监管要求;而特斯拉纯黑盒单模型无中间感知输出,难以完成安全档案(Safety Case)备案。
- 地图与ODD逻辑小幅迭代当前VLA2.0已搭载轻量导航地图拓扑约束,仅需新增ODD边界识别、分级接管提醒、超出运行域自动降级逻辑,就能完整公示系统适用场景,符合国标宣传与运行域管控要求。
整体来看,特斯拉极致纯视觉、无独立安全规则的激进路线,在国内L3法规下存在底层硬伤;而小鹏兼顾视觉大模型与多传感器冗余的中庸方案,提前预留合规余量,仅通过软件OTA微调、新增标准化数据记录模块,就能快速完成L3准入申报,技术路线的折中反而形成本土监管层面的核心优势。
6.5 小鹏自动驾驶中长期发展规划
2026年3月,何小鹏在第二代VLA推送时表示:"小鹏第二代VLA是面向完全自动驾驶的第一个版本,它将以小鹏从未有过的速度快速迭代。完全自动驾驶将在未来1-3年内完全到来,自动驾驶将真正成为人们的日常出行习惯。"短期落地:搭载第二代VLA的Robotaxi已开启公开道路测试,2026年内开启试运营;全球化布局:2027年VLA2.0启动全球交付,大众作为首发海外客户。
从2019年的XPILOT到2026年的VLA2.0,小鹏用七年时间完成了智驾技术的三级跳。无论这场与特斯拉的赌约最终结果如何——是何小鹏在硅谷开起中式餐厅,还是自动驾驶负责人完成约定,小鹏智驾的发展轨迹已经证明:在中国这片全球最复杂的道路环境中,"像特斯拉但不是特斯拉",既保持技术前沿性又兼顾本土适应性,或许正是在这片土地上通往完全自动驾驶的最优路径。