电车的鼻祖特斯拉,听说 FSD 方案快要在国内落地了。大家都在担心特斯拉的 FSD 纯视觉方案在中国是否会遭遇水土不服。国内大多数电车厂商都在使用视觉+激光雷达的方案,为什么这么多年过去了祖师爷特斯拉仍未跟进,是激光雷达有坑嘛?
马斯克长期强调“人类只用眼睛就能驾驶”,认为高质量的视频语义+大模型预测决定能力上限。雷达/激光的几何测距虽然稳,但语义密度低、可能束缚网络去学习更通用的先验。与其在感知侧加硬件,不如把资源投向数据、标注与训练基础设施。
在 L2/L2+到“FSD(Supervised)”层级,视觉主导已能覆盖大量日常场景,但在极端天气、强逆光/炫光、传感器脏污等尾部场景,系统会依赖守护逻辑与降级策略,例如更保守的速度/时距,并要求驾驶员持续监控。在其现阶段定位下特斯拉可以承受视觉主导带来的极端尾部场景降级策略,通过 DMS、保守策略和持续改进来管理风险,无需为 L3/L4 的形式化冗余支付 LiDAR 成本与复杂度。
再说回来国内厂商大多采用视觉+激光雷达方案的原因,其实还是起始技术差。
自动驾驶中最基础的原理就是生成 BEV(鸟瞰图),通过传感器生成二维地图和重构三维空间。 要做到这点我们首先需要发现并识别物体,也就是看到物体以及其颜色尺寸和纹理(我们可以区别同样大小颜色的西红柿和苹果就是因为纹理)。除此外还需要有深度(与我们的距离)才能构建三维立体。
而目前的摄像头可以提供前者却无法提供深度数据。自动驾驶的难点就是如何提供深度数据来构建三维图。简单说就是目前我们可以通过二维的照片发现和识别物体,但难点在怎么把二维的照片还原成三维的空间。
路线就两条:一是模仿人眼人脑利用大模型“推导”出深度数据,二是用激光雷达直接精确测距从而获得深度数据。
一、照相机拍出来的是二维的,而我们人类眼睛为什么看到是立体的呢?
很简单,我们大脑可以通过视觉的“动态”来推导出深度。这个动态有三种方式:一是画面动起来,比如摄像机其实拍出来也是二维的画面,但是一帧帧画面动起来我们的大脑就能推导出深度数据看起来是立体的了。二是左右两只眼睛产生的“视差”,视差带来的不同可以推算出深度来。现在的双机拍摄立体电影也是这个原理。三是眼球的快速转动和变焦产生图像变化来推测出深度来。
二、激光雷达的作用和弊端。
激光雷达的作用和优势很简单直接,就是直接精确测距来提供深度数据。激光雷达可以生成完全由一个个具有深度数据的点构成的三维立体图,这就是点云图。但缺点也很明显:
远距点云稀疏,小截面或者是细长物(杆子、电线)与车行方向平行的薄物体更难稳定检出,黑色高吸收或强镜面材质目标回波弱。
与相机/雷达融合需精准外参、时间同步、滚快门/畸变补偿与在线重标,数据关联和冲突仲裁复杂,工程成熟度不足时可能出现错检、漏检或策略打架。
算力与带宽负担相对较大。高线束、高频设备产生更大点云,处理与融合需要稀疏张量/ROI 裁剪等工程优化,否则会拖慢时延、抬高算力成本。
因为上述问题,所以大家卷激光雷达性能,但是这又带来另一个问题,就是激光雷达性能越好,信息就越丰富,要融合的内容就越多,融合的复杂性就越高,同时也导致算力浪费。比如,道路两边的树冠、房屋,让系统去融合这些东西毫无必要,纯粹浪费算力。所以就需要让系统将其过滤掉。系统又没有主观能力怎么过滤呢?会采取场景逻辑推论的方式来忽略掉,比如道路上不会出现树冠。但这又带来新的问题,当道路上真的出现树冠(或者因为外形奇怪系统以为是树冠)时,就会因为被系统过滤而直接撞上去。典型就是高速路上直接撞上那些长得非典型车辆状态的奇奇怪怪的工程车。这个时候就只能依靠传统的毫米波雷达紧急制动了。
国内的小鹏是国产汽车中的“异类”,是国内唯一一家采用纯视觉方案的厂商。但是他也不是一开始就坚持使用纯视觉方案。在小鹏推城市 NOA 期间,为了快速攻城掠地,在小鹏的 P5、G9 部分车型上也采用了前向双颗固态雷达,主要是为了提升远距静态、异形障碍物的“几何刚性”确认,降低误检、漏检的长尾风险。在复杂交叉口、道路施工、窄路会车等场景提供独立几何约束,缓解只靠视觉的先验偏置。在早期也为他城市 NOA 的快速开通立下了汗马功劳。
三、纯视觉系统的优势和难点。
1、最大的优势自然是避免了上述激光雷达的越来越复杂的工程融合难题,用最根本最直接的方式解决问题。这就是马斯克经常提到的第一性原理。
2、第二大的优势就是具有预判能力。这个在特斯拉上表现非常突出。为什么纯视觉具有预判能力呢?因为纯视觉是自主推导数据的,所以当物体大部分被遮挡,比如被一个灌木丛遮挡,只露出一个尾灯或者车前杠时,系统可以自主推断出灌木丛后面是一辆车。而同样情况放在激光雷达上极易被过滤掉。
3、纯视觉的难点也很突出:就是要依靠大模型来推导出深度数据来构建三维图。搞这个要花很多的钱和研发能力。
4、不过既是难点也是优势:就是随着算力的提高,大模型的发展以及经验的累积,视觉迭代的速度会越来越快,优势会越来越明显,所以实际上国内车企的智驾专业人士都感叹特斯拉在智驾上非常强大,甚至优势越来越大。特别是随着跨平台神经网络的发展,对于单个车辆的系统构建能力依赖性实际是减少的。
当你了解这些基本原理后,你就明白根本不存在什么激光雷达是多一个备份多一个安全冗余的说法,如果视觉抓瞎,只有激光雷达是没有用的。智驾就是以视觉为主,没有激光雷达也可以智驾,但没有视觉系统就没有任何智驾。