不写AI·通稿

26共同关注

上一篇文章中我们解读了《智能网联汽车自动驾驶系统安全要求》强制性国标(报批稿)。
有自媒体高调宣布"纯视觉神话落幕,L3必须加毫米波雷达、L4必须配激光雷达",小鹏副总裁于涛随即公开辟谣,称新国标"连激光雷达这个词都没提到"。
一份文件,两种截然相反的解读。
这不是行业第一次在"激光雷达 vs 纯视觉"这个问题上吵架,也肯定不是最后一次。
但今天我们不打口水仗。从技术原理出发,把这两条路的底层逻辑、各自的硬伤,以及在L3/L4这个维度上的真实差距,掰开了讲清楚。
好的,欢迎进入本期的【极简技术】。
1、先定义问题
首先,我们要先消除一个常见误区:
激光雷达方案不是"纯激光雷达",而是多传感器融合——摄像头 + 毫米波雷达 + 激光雷达协同工作。
纯视觉方案也不是完全没有雷达,超声波和毫米波还是要装的,区别在于装不装激光雷达。
所以这场争论的本质是:纯视觉能否独立完成L3/L4所要求的感知任务,还是必须引入激光雷达作为硬件冗余。
2、感知的底层:怎么"看懂"三维世界
自动驾驶的核心任务之一,是生成BEV(鸟瞰图),在三维空间里精确定位周围的人、车、物。要做到这一点,系统需要两样东西:
a.识别物体:看到它是什么
b.测量深度:知道它有多远
摄像头天然擅长前者——颜色、纹理、形状,视觉系统处理起来得心应手。但摄像头拍出来的是二维图像,本身“没有深度信息”。这就是自动驾驶感知的核心难题。
两条解题路径,从这里分叉:
路径一:激光雷达直接测距
激光雷达主动发射激光脉冲,通过测量光的飞行时间(ToF)精确计算距离,直接生成带有深度坐标的“点云图”。不需要推算,不需要猜测,物理测量,确定性极强。

路径二:纯视觉"推导"深度
人之所以能从二维视网膜图像中感受到立体世界,靠的是三种机制:多帧画面的视差推断、双眼视差、以及眼球运动带来的图像变化。纯视觉系统用多摄像头 + 多帧时序图像 + 大模型(如BEV Transformer),模仿人眼和大脑的工作方式,通过算法推导出深度数据。
原理上,这两条路都能通向目的地,但工程实现上的难度差距不小。
3、激光雷达方案:优劣势均明确
优势
深度数据确定、精准
激光雷达输出的点云是"物理事实",每个点都有明确的三维坐标,不存在算法推算带来的不确定性。
在高速、复杂场景下,这种确定性是安全的基础。
感知维度冗余
摄像头和激光雷达的感知机制完全不同——一个是被动接收光线,一个是主动发射激光。当摄像头因逆光、强光失效时,激光雷达仍可独立感知环境,提供安全兜底。这是L3"脱手驾驶"语境下最重要的安全逻辑。
不受纹理缺失影响
面对一面纯白无纹理的墙,视觉算法可能完全失效,但激光雷达照样能扫出距离和形状。
硬伤
融合复杂,系统性风险不容忽视
摄像头和激光雷达的数据是两套完全不同的"语言",融合时存在严重的时间戳对齐、空间配准(视差)等工程问题
——融合错位容易引发的系统性Bug。
激光雷达同样怕恶劣天气
很多人以为激光雷达是雨雾天气的救星,其实激光是光,波长极短,在有限功率下作用距离本就不远,雨雾天气对激光的散射影响同样显著,有时比摄像头受影响更大。
成本高、系统越复杂性能损失越大
激光雷达线束越多、分辨率越高,融合算法越复杂,对算力的消耗越大,系统过滤机制可能反而导致对奇形怪状物体(如工程车、异型障碍物)的漏检。
4、纯视觉方案:第一性原理的赌注
特斯拉是这条路的旗手:8个摄像头覆盖360°视野,最远探测约250米,用Occupancy Network建模环境,BEV Transformer融合多帧时序信息推导深度,端到端神经网络直接输出驾驶决策。
优势
系统架构简洁,避免融合难题
没有激光雷达,就没有跨模态数据融合的工程噩梦。视觉是主干,大模
型负责推理,逻辑链路短、迭代快。特斯拉靠着庞大的数据飞轮(全球
数百万辆车的真实行驶数据),让模型能力以惊人的速度迭代。
具备遮挡物预判能力
视觉大模型可以根据上下文推断被遮挡物体后面的情况——这是激光 雷达点云做不到的。人类司机能"猜"到路口拐弯后可能有行人,视觉系
统同样可以学习这种推理。
随算力和数据持续进化
大模型的边际成本越来越低,算力持续提升,纯视觉的上限还在增长。
硬伤
深度推算的数学先天缺陷
任何物理雷达(激光、毫米波、超声波)都是"物理式"的直接测量,结果确定,误差符合高斯分布,数学上可以精确建模。而纯视觉是"计算式"的间接测量——误差分布是**非高斯**的,在"纹理缺失"或"光线突变"(纯白墙壁、隧道口、强逆光)等场景下,误差会出现结构性崩坏,而非随机波动,强行用高斯拟合会严重低估风险。
这个数学问题,是纯视觉在国标验证测试中的核心挑战。要突破,要
么摄像头实现原理性突破,要么算法在数学层面实现突破。
极端场景感知能力存在上限
下雨天的夜晚,是纯视觉最难应对的场景组合。光线不足 + 雨滴散射 + 路面反光,视觉算法的可靠性会显著下降。这不是靠数据堆就能完全解决的,因为这类场景下的"统计先验"本身就是失效的。
无硬件冗余
一旦摄像头失效(污渍、遮挡、硬件故障),整个感知系统失去视觉输入,毫米波雷达勉强能维持基础感知,但精度远不足以支撑L3级别的脱手驾驶。
小结
激光雷达和纯视觉,不是谁对谁错的问题,是在当前技术水平下,分别选择了不同的确定性来源。
激光雷达用物理测量买确定性,代价是系统复杂度和成本;
纯视觉用算法推理买效率,代价是在极端场景下的不确定性。
L3时代刚开始,这场技术路线之争远未终结。真正的竞争,将在每一个"L3可用场景"的范围里展开——消费者终将明白,同是L3,差距有多大。

相关资讯:

-END-
交流观点 · 深度思考 · 就在摩赞
