「被“神化”的纯视觉与被“物化”的激光雷达」
国内纯视觉阵营的代表人物,小鹏汽车CEO何小鹏在前不久的发布会后直言:“汽车领域不再需要激光雷达”。
这一言论再次将自动驾驶领域持续多年的技术路线之争推向了风口浪尖。

十年前,Waymo 等公司使用的激光雷达单价高达 5 万美元,是高昂成本的代名词。如今,禾赛的 ATX 和速腾聚创的 MX 等产品已将价格压至 200 美元级别,甚至更低。
激光雷达成本的显著下降,加上 2026 年端到端大模型、固态激光雷达、4D 成像毫米波雷达三股力量的同步爆发,使得这场技术路线之争进入了一个微妙且充满变数的转折点。
本文将结合最新技术进展与行业多家代表性车企数据,梳理纯视觉路线和多传感器融合路线的现状、突破与盲区。
纯视觉的路子,逻辑听起来简单:既然人类仅凭视觉就能驾驶汽车,摄像头带传感器的AI应该也能学会。
何小鹏在近期采访中解释过技术路线转变的底层逻辑:过去纯视觉方案不行,主要是算力不够。
视觉系统从一开始就要从二维像素推断三维空间,这是一个巨大的数学求解问题。激光雷达方案之所以早期占优,是因为它跳过了这个推断环节,直接给系统提供结构化空间信息,对算力的依赖也就更低。
现在算力够了,胜负手倒过来了。
小鹏在车端部署了2250 TOPS级别的算力,加上纯视觉捕获的原始图像信息密度远超激光雷达输出的稀疏点云,理论上能识别更多类型的物体和场景。
而在纯视觉路线的技术演进中,特斯拉FSD始终是最具风向标的实践者。
2026年,FSD V14系列的两大技术支柱——端到端架构与占据网络——分别从“决策方式”和“感知能力”两个维度,将纯视觉方案推向了新的高度。
特斯拉FSD最近的两次更新,进一步加厚了纯视觉派的底牌。
4月推送的V14.3版本,把“感知→规划→控制”的三段式模块化设计彻底抛弃,切换为“全域一段式纯端到端”。
摄像头的原始像素直接输出转向、刹车、油门指令。特斯拉将车辆控制环节的最后30多万行手写C++代码全部移除,改由神经网络直接输出驾驶指令,真正实现了从像素到轨迹的全链路神经网络覆盖。
紧接着的5月V14.3.3版本,强化学习模块正式上车,基于车队真实路况中的难例进行专项训练。
智能召唤功能提速到13公里/小时。截至当时,FSD累计里程已超100亿英里(远超Waymo的2亿英里,但需注意:特斯拉的里程是带人监督的,Waymo是纯无人驾驶,两者性质不同)。
与传统的"感知—规划—控制"三段式模块化系统相比,端到端架构的优势在于:
模型的梯度信号能够贯穿整个处理流程,实现感知与决策的联合优化。在传统模块化系统中,感知模块的输出(如边界框、车道线)是以有限的结构化格式传递给规划模块的,这种"接口瓶颈"会导致信息损失。
端到端模型则允许神经网络自动学习高维感知特征与驾驶行为之间的对应关系,理论上能更好地处理难以用规则描述的复杂场景。

图1 | 从传统"感知+规划"模块化架构(上)到全深度学习端到端架构(下)的演变。端到端架构消除了两个模块之间的人工接口,使梯度信号贯通全链路。
在FSD V14中,特斯拉还引入了VLA框架,尝试将语言推理能力融入驾驶决策闭环。
例如,在施工路段,系统不仅能识别"道路封闭"标志,还能结合上下文推断出合理的绕行路径。此外,3D高斯重建技术被用于生成语义一致的新视角图像,为端到端训练提供更密集的监督信号。
纯视觉感知的另一个重要进展是占据网络的广泛应用。
传统的目标检测方法依赖于预定义的类别标签(如"车辆"、"行人"),对于训练数据中未出现过的未知障碍物(如散落的货物、异形障碍物)往往束手无策。
占据网络则将三维空间划分为体素网格,直接预测每个体素是否被占据,从而实现对任意形状障碍物的感知。

图2 | 特斯拉占据网络(Occupancy Networks)架构图,展示了从多摄像头图像输入到4D占据体积(Occupancy Volume)输出的完整特征提取与同步过程。
结合BEV感知技术,纯视觉系统能够在不依赖激光雷达的情况下,构建出相对完整的三维空间理解。这一能力的提升,在很大程度上缩小了纯视觉系统与多传感器系统在三维感知上的差距。
学术界如SurroundOcc等研究也展示了仅依赖多摄像头生成高密度3D占据预测的潜力。

图3 | SurroundOcc等多摄像头3D占据预测模型,展示了如何从环视RGB图像生成密集的3D占据预测,并通过稀疏激光雷达点云进行监督训练。
然而,纯视觉路线的局限性同样值得正视。
摄像头作为被动传感器,其感知能力从根本上依赖于外部光照条件。
在暴雨、浓雾、极暗环境或强逆光场景下,摄像头捕获的图像质量会显著下降,导致感知性能的不稳定。
更重要的是,纯视觉系统通过二维图像推断三维深度信息,这一过程存在先天的不确定性。算法需要从图像纹理、视差和运动信息中估计距离,其测距精度和鲁棒性在原理上难以与激光雷达的直接测距相媲美。
此外,纯视觉系统的安全冗余设计存在先天不足。
一旦摄像头镜头被雨滴、污物遮挡,或出现光晕、眩光等干扰,整个感知链路可能陷入瘫痪,且缺乏其他传感器作为备用数据源。这一特性使得纯视觉路线在功能安全层面面临更高的挑战。
与特斯拉的激进路线不同,Waymo、Mobileye等大多数专注于L4级及以上自动驾驶的企业,坚持多传感器融合路线。
其核心逻辑是:通过异构传感器(激光雷达、摄像头、毫米波雷达)的互补,构建具备物理冗余的安全底座。当一个传感器失效或被干扰时,其他传感器仍能提供关键信息。
这条路线过去最大的软肋是成本。
激光雷达动辄数万美元,只能用于Robotaxi等不计成本的测试车辆。但到了2026年,这个障碍已经被基本清除。
激光雷达的价格被打下来了
以禾赛科技为例,其面向ADAS的新一代激光雷达产品ATX,售价已降至200美元以下,仅为前代旗舰产品AT128的一半。从2017年单颗激光雷达超过20万元人民币,到2026年的千元级别,禾赛在8年间将激光雷达价格降低了99.5%。
与此同时,根据Yole Group的数据,2024年全球车载激光雷达出货量已超过160万颗,乘用车市场的出货量是Robotaxi市场的四倍以上,预计到2030年市场规模将增长至35.6亿美元。

图 | 禾赛科技ATX激光雷达,定位"X = Every Car",售价低于200美元,面向主流乘用车市场。
这一价格下探趋势,使得激光雷达开始大规模向15万至20万元的主流价格带车型渗透,不再是高端车型的专属配置。
同时,诸如禾赛ETX等拥有800线超高分辨率的超远距激光雷达也开始走向前台,进一步拉高了激光雷达在感知精度上的天花板。

图 | 禾赛ETX车规级超远距激光雷达,具备800线超高分辨率和400米测距能力,代表了当前固态激光雷达的性能巅峰。
成本问题解决后,融合路线的两大核心优势便凸显出来:极致的物理冗余和全天候可靠性。
而在这两方面积累最深的,无疑是Waymo。
2026年,Waymo正式开始以第六代Waymo Driver进行完全无人驾驶商业运营。
在软件层面,Waymo推出了基于Waymo基础模型(Waymo Foundation Model)的全新AI生态系统。

图 | 搭载第六代Waymo Driver的自动驾驶车辆,车顶传感器套件集成了激光雷达、摄像头和毫米波雷达。
Waymo基础模型采用"快思考与慢思考"双组件架构:
传感器融合编码器负责快速融合激光雷达、雷达和摄像头的实时数据,输出目标、语义和丰富的嵌入特征,用于快速、安全的驾驶决策;
驾驶视觉语言模型则基于Gemini训练,负责处理复杂的语义推理,应对罕见的、难以用规则描述的场景。

图 | Waymo基础模型架构图,展示了传感器融合编码器(Sensor Fusion Encoder)与驾驶视觉语言模型(Driving VLM)协同工作的"快思考与慢思考"机制。
值得关注的是,Waymo的多传感器融合路线已不再是过去简单的规则级拼接,而是进化为端到端的多模态特征级融合。这表明,多传感器融合路线同样在积极拥抱大模型技术,两条路线在算法层面的边界正在逐渐模糊。
在安全数据层面,截至2025年底,Waymo的无人驾驶里程已突破1.7亿英里。其任何伤害事故率仅为每百万英里0.41起,而人类驾驶员的基准值为2.80起。这一数据差异,在一定程度上反映了多传感器冗余设计在安全性上的工程价值。
当然,需要指出的是,Waymo目前主要运营于地理围栏区域内,其运营环境的复杂度与全球范围内的大规模部署场景仍有差距,因此这一安全数据的外推需要谨慎。
在摄像头与激光雷达之外,4D成像毫米波雷达正在成为传感器格局中不可忽视的新变量。
传统毫米波雷达仅能提供距离、速度和方位角信息,而4D雷达在此基础上增加了高度(俯仰角)维度的感知,并能输出高密度的点云数据。

图 | 4D成像毫米波雷达在自动驾驶中的应用展示,其能够输出高密度点云数据,并在恶劣天气下保持高精度感知。
4D雷达的核心优势在于全天候工作能力:
不受雨雪雾霾影响,且具备极高的径向测速精度。其劣势在于角分辨率仍不及激光雷达,对小目标的识别能力相对有限。从市场数据来看,4D雷达市场规模预计从2025年的27.5亿美元增长至2026年的31.3亿美元,年复合增长率约20%,显示出强劲的增长势头。
在性能对比上:
摄像头拥有最强的语义识别能力但受限于光照和天气,且测距精度有限;
激光雷达提供高精度的厘米级直接测距和优秀的夜间性能,但成本相对较高且语义识别较弱;
4D毫米波雷达则在恶劣天气下表现最为强悍,且成本较低,但角分辨率和语义识别能力较弱。
这三种传感器的特性互补,构成了多传感器融合路线的物理基础。
在讨论"激光雷达还是摄像头"时,有几个值得深入思考的问题往往被忽视。
第一,"纯视觉",真的“纯”吗?
特斯拉一直在强调“纯视觉”,但它的车上并非只有摄像头。
超声波传感器从未移除,部分车型也保留了毫米波雷达。更重要的是,FSD至今仍是L2级辅助驾驶系统,需要驾驶员持续监控。将特斯拉FSD的L2数据与Waymo L4的无人驾驶里程直接对比安全性,在方法论上是有问题的,两者的设计目标、运营场景、责任归属完全不同。
第二,成本下降是否真的改变了格局?
激光雷达价格降至200美元以下,固然是重要的里程碑。
但需要指出的是,一套完整的多传感器融合系统不仅包括传感器本身,还涉及高精度地图、传感器标定、数据融合算法和更高的计算平台成本。系统层面的总成本,仍然显著高于纯视觉方案。对于追求极致成本控制的大众市场车型,这一差距依然是关键的决策因素。
第三,小鹏弃用激光雷达,到底是因为技术还是成本?
小鹏汽车宣布新车型移除激光雷达,转向纯视觉。
官方给出的理由之一是:激光雷达的点云数据格式难以被大语言模型有效吸收,而纯视觉的图像数据与大模型生态天然兼容。这个说法有一定道理,但行业里更主流的解读是:小鹏面临巨大的成本压力,移除激光雷达是降本的重要手段。
第四,两条路线是否真的在收敛?
从趋势上看,纯视觉在拼命补三维感知(占据网络、3D高斯重建),多传感器融合在积极引入大模型(Waymo的VLM、华为的WEWA 2.0)。两者似乎在向中间靠拢。
但根本分歧依然存在:
是否需要物理冗余? 纯视觉认为“算法够强就不需要”,多传感器认为“传感器是物理世界的最后一道防线”。这个分歧,不是算法能解决的,它是两种安全哲学的根本差异。
因为“收敛”容易让人误以为最终会有一个统一方案。但实际上,这个分歧可能会长期存在。
L4的真正落地,最终要由事故率数据和监管政策来裁决,而不是技术辩论。
诚然,我们看到两条路线在算法层面正相互借鉴、趋于“收敛”。
技术路线的优劣,不能仅看实验室里的指标或发布会上的口号,而要回归最朴素的尺度:在真实、开放、不确定的道路上,系统能否守住安全的底线。
正如华为常务董事余承东强调的:“生命是最高贵的,一切以安全为主。”
技术没有标准答案,唯有立足实际、敬畏安全,才能走得更远。
作者|阿豹
审编|阿蓝




· 计划周期:深蓝学院将以3个月为一个周期,建立工程师&学术研究者的「同好社群」
· 覆盖方向:自动驾驶、具身智能(人形、四足、轮式、机械臂)、视觉、无人机、大模型、医学人工智能……16个热门领域
扫码添加阿蓝
选择想要加入的交流群即可
(按照提交顺序邀请,请尽早选择)
👇
