很多人一聊到自动驾驶安全,几乎是条件反射:
视觉不够准 → 必须上激光雷达 → 多传感器融合才安全。
这个逻辑听起来是很顺,甚至很“工程化”。
激光雷达,厘米级测距;雷达,全天候稳定;再叠上摄像头——
好像每多一个传感器,就多一层保险。
但问题在于,这个直觉,很可能从一开始就把方向带偏了。
自动驾驶真正要解决的,从来不是“测得有多准”,而是:
它到底能不能理解这个世界。
精度只是工具。理解才是能力。
而一旦你顺着工程现实往下拆,会慢慢发现一件不太直观的事——
混合传感器这条路,不一定更安全。
在规模化之后,它甚至可能更脆弱。
第一层:人类其实早就给过答案
我们自己开车的时候,其实已经做了一次“技术选型”。
绝大多数时间,我们只靠两只眼睛。
没有激光雷达,也没有毫米波雷达。
更没有什么厘米级的实时测距。
我们并不会精确知道前车是23米还是27米。
但我们知道——
差不多这个距离,是安全的。
更有意思的是:
当环境变差的时候,我们也不会立刻“失效”。
挡风玻璃脏了、夜间对向远光灯、雨雪天气、甚至起雾——
信息变少了,但驾驶也没有崩溃。
我们的大脑,会用剩下的线索去弥补:
物体在变大还是变小
相对运动在加快还是减慢
这个东西“像不像”一个人,还是只是个塑料袋
这背后其实是一件很关键的事:
视觉不是在“测量”,而是在“建模”。
它在不断猜测:
这个世界在怎么运转,这些物体接下来会怎么动。
而激光雷达和雷达呢?
它们给的是另一种东西:
更干净,但更单一的数据。
这些信息很精确,但语义极弱。
你可以很准地知道“前方有个东西在20米”,
但你不一定知道——
那到底是人,还是一袋风吹起来的垃圾。
而视觉,反过来是可以逼近“距离感”的。
这就是一个很不对称的关系:
👉 视觉,可以慢慢学会雷达的能力
👉 雷达,很难补上视觉的理解
第二层:当“多个世界观”开始打架
问题从这里开始变复杂。
一旦你上了多传感器融合,你其实不是在“增强一个系统”,而是在引入多个系统。
而多个系统,就一定会有分歧。
某一刻:
摄像头说:前面有障碍
激光雷达说:没有
雷达给了一个奇怪的速度信号
这时候系统必须做一件很尴尬的事:
决定——到底该信谁。
这一步听起来简单,但实际上是整个系统里最不稳定的一环。
你不得不设计一整套机制:
置信度怎么计算
冲突时是保守刹车,还是继续行驶
不同传感器权重怎么动态调整
问题在于:
这本身就是新的不确定性来源。
你以为是在“增加冗余”,
但实际上,是在增加一个“裁判系统”。
而裁判,也会犯错。
第三层:工程复杂度开始失控
如果说冲突只是“逻辑问题”,那校准就是“物理问题”。
纯视觉系统,其实很简单:
就是一堆摄像头。
校准这件事,可以通过自然驾驶慢慢自我修正。
开一段路,系统就能重新对齐世界。
但混合方案不一样。
它要同时对齐三种东西:
摄像头自己的光学参数
激光雷达/雷达的空间位置
最难的:跨传感器对齐
也就是——
把点云,精准投影到图像上。
这件事对精度的要求,几乎是苛刻的。
一个很小的误差:
在远距离,就会被放大成明显错误。
而现实世界是会动的:
这些微小变化,不会让系统立刻报错。
但会一点点,把“真实世界”和“模型世界”拉开。
最麻烦的是——
你很难第一时间察觉。
第四层:规模一上来,问题才真正开始
如果只是几十辆测试车,这些问题还能靠工程团队兜住。
但一旦进入车队规模——
几千辆、几万辆,甚至Robotaxi级别——
事情会变得完全不一样。
摄像头的问题,其实很好处理:
它是“显性的”。
但激光雷达的问题,往往是“隐性的”。
比如:
系统可能还在正常运行,
但误差已经在慢慢积累。
直到某一个瞬间,在一个复杂场景里——
它突然出错。
而你很难追溯:
这到底是今天的问题,还是三个月前那次颠簸留下的偏差。
于是维护这件事,开始变成一个黑洞:
每一项都不难。
但叠在一起,就变成了指数级复杂度。
第五层:真正的分水岭,在“长尾”
最后,回到自动驾驶最本质的问题:
不是常规场景,而是长尾。
那些极低概率,但一定会发生的情况。
世界不是静态的。
你收集了100亿英里数据,不代表你见过下一个100亿英里的变化。
这里会出现一个很微妙的分歧:
混合方案,往往在“已知世界”里表现很好。
因为它的数据更干净、更结构化。
但也正因为干净,它更容易:
记住,而不是理解。
纯视觉反而走了一条更“脏”的路。
大量噪声、模糊、不完美的数据,逼着模型去提炼更底层的规律:
这更接近人类的学习方式。
也更接近一种能力:
在没见过的情况下,依然做出合理判断。
最后:安全,终究是认知问题
很多人把自动驾驶安全,理解成一个“硬件堆叠问题”。
好像传感器越多,系统就越安全。
但当你一层一层拆开之后,会发现另一条链条:
这些东西,不是在减少风险,而是在转移风险。
纯视觉这条路,并不轻松。
甚至在一开始,是更难的。
但它做了一件更“极端”的事:
把所有问题,压到“理解世界”这一件事上。
我们其实不需要一个完美系统。
只需要一个系统:
比人类平均水平显著更安全。
一旦跨过这个门槛,社会价值就已经巨大。
所以,问题最后会变得很简单:
不是“哪个更准”,
而是——
哪个,更接近真正的理解。