特斯拉FSD采用的纯视觉端到端方案,其座舱内搭载Grok大模型,但二者分工明确。FSD的核心架构为纯视觉端到端黑箱——摄像头捕捉的像素信息直接输入模型,模型直接输出转向、油门、刹车等控制指令,跳过中间规则推理。Grok大模型(已上车Grok-3)仅用于座舱内的意图理解与交互解释,不参与实时驾驶决策。硬件以HW4.0为主,虽然预留了毫米波雷达接口,但实际感知仍依赖纯视觉。该路线的优势在于硬件成本低于多传感器融合方案,且全球约100万辆FSD车队形成了“数据-训练-迭代”的闭环,算法迭代速度领先,驾驶风格高度拟人化,在海外常规场景表现优异。其劣势同样突出:逆光、雨雾、夜间等极端条件下感知精度下降,对静物、异形车辆的漏检率较高;端到端黑箱特性导致事故归责困难。更重要的是,国内L3级强制国标要求多传感器冗余备份,纯视觉FSD短期内无法合规落地L3级,仅能提供L2功能。
以华为乾崑ADS 4.0的WEWA架构为代表的多传感器融合加世界模型路线,采用多传感器深度融合,顶配搭载4颗激光雷达,中端标配1颗前向激光雷达加毫米波雷达与视觉感知。底层构建4D(时空)环境表征,基于物理规律预判交通参与者未来行为,实现感知、预测、决策一体化端到端输出,显著降低决策时延。目前搭载于问界、阿维塔、极狐阿尔法S HI版等高端车型。其核心优势在于安全性能领先:恶劣天气下感知稳健,支持全时速AEB及爆胎稳控,决策过程可追溯,符合L3法规要求,且深度适配中国复杂路况。挑战在于硬件成本与算力消耗较高(MDC1000+平台算力超过1000TOPS),整车BOM成本较高,对价格敏感市场形成压力;数据积累量相较于特斯拉仍有差距,但截至2025年底乾崑智驾累计装载量已超140万套,追赶速度较快。
以小鹏第二代VLA架构为代表的视觉语言动作模型(VLA)路线,其技术原理为“视觉+激光雷达”融合感知,将语言模态原生融入端到端决策,形成“视觉+语言→动作”的闭环。系统构建物理世界模型,利用语义理解辅助感知与意图预测,直接输出控制指令,决策延迟优化至毫秒级。目前搭载于G6、P7+、G7、X9等主力车型,覆盖18万至30万元以上市场。该路线的优势在于:端到端架构显著降低决策延迟,复杂路况避让更丝滑,通行效率提升;物理世界建模增强了对“鬼探头”等风险的预判能力;统一的架构具备向Robotaxi扩展的潜力。通过自研图灵芯片与规模效应,在目标价位段实现了较高性价比,正在快速下放至15-25万元主流家用车型。其挑战主要包括:端到端黑箱导致可解释性较弱;部分复杂场景下仍存在冗余操作(如不必要的变道意图),需持续数据优化;作为面向L4演进的技术,极端场景的系统边界与接管策略尚待完善。硬件成本高于纯视觉,但已通过自研与规模控制在合理区间。
传统BEV+Transformer模块化架构是当前存量智驾车辆中占比最高的技术形态。其核心技术原理为感知(BEV鸟瞰图加占用网络)、预测、规划、控制四大模块分立串行处理,通过规则与模型混合决策,过程分步式且可解释。该路线广泛搭载于15万至25万元中端车型乃至高端车型。优点在于技术成熟稳定,模块分立便于问题定位与责任界定,符合现行法规要求;硬件适配性强,支持从纯视觉到多雷达的灵活配置;高速领航等结构化道路场景表现稳健。缺点同样明显:城区复杂路口(无保护左转、环岛等)能力较弱,模块间信息传递存在滞后与损耗;驾驶体验机械,规则库难以覆盖所有长尾场景,拟人化程度低;迭代依赖人工规则调整,难以像端到端模型那样通过数据直接驱动行为进化,向L3+演进难度较大。