---
本文仅代表个人观点,与任职公司无关
---
马斯克常说:"人只用两只眼睛就能开车,所以摄像头也能。"
这话听起来很有道理。作为一个写过十几年代码、见过无数系统边界案例的技术人,我第一次听到这个观点时,甚至觉得挺有说服力——毕竟,仿生学不就是这么回事吗?
但后来在车载行业待得越久,我越觉得哪里不对劲。生物视觉和机器视觉,真的是一回事吗?
---
一、纯视觉的"阿喀琉斯之踵"
让我们先看一组公开可查的数据和案例。
2025年8月,美国得州。一位女性车主开启FSD(完全自动驾驶)功能后,她的Cybertruck在休斯顿高架桥上径直撞向护栏。诉状称,车辆本应右转,却未识别分叉口直接前冲。车主起诉特斯拉,索赔超100万美元。
这起事故的争议点在于:系统是"没看见",还是"看错了"?
纯视觉方案的核心逻辑是用摄像头模拟人眼,通过神经网络识别图像中的物体。但摄像头有一个天然的物理局限:它只能捕捉"光",无法直接感知"距离"和"材质"。
这就导致了几个典型的"致命盲区":
这些不是算法bug可以修复的问题,而是物理层面的硬伤。
---
二、那些"看不见"的代价
2016年5月7日,佛罗里达州一条没有红绿灯的公路上,40岁的Joshua Brown驾驶着一辆Model S,以每小时74英里的速度撞上了一辆正在左转的白色拖车。
司机当场身亡。
事后特斯拉的官方解释是:"在明亮的天空下,自动驾驶系统没有注意到拖车的白色车身。"
白色物体+明亮背景 = 系统误判为天空。
这不是个案。2019年,几乎完全相同的事故再次发生在佛罗里达州——又是一辆白色拖车,又是一个开启Autopilot的特斯拉,又是车毁人亡。
作为技术人,我理解端到端神经网络的强大,也相信数据驱动的迭代能力。但当系统面对"白色拖车vs天空"这种对人类来说毫无难度的区分时,为什么会一次次犯错?
答案很简单:摄像头捕捉的是光影,不是实体。
当拖车的白色车顶与天空的亮度相近时,2D图像中的边界消失了。人类可以依靠双眼视差、经验判断、甚至常识推理来分辨,但纯视觉系统只能依赖训练数据——而如果训练数据里没有足够多的"白色拖车+明亮天空"组合,系统就会懵。
问题是,现实世界的长尾场景是无限的。
---
三、行业大佬们的路线之争
关于纯视觉 vs 多传感器融合,业内已经争论多年。让我们看看各方公开的立场:
马斯克(特斯拉):
> "激光雷达昂贵、丑陋且不必要。依赖该技术的公司将失败。"
余承东(华为):
> "生命最宝贵,激光雷达是安全底线。摄像头在特定情况下会致盲,激光雷达不会。"
李斌(蔚来):
> "可靠传感器越多,感知信息越足,对安全只有好处。说激光雷达无用者,非蠢即坏。"
何小鹏(小鹏):
> "2027年初纯视觉将成为行业共识。"
有趣的是,小鹏的态度转变最大。从早期的激光雷达拥趸,到现在的"押注纯视觉",背后是成本的考量,还是技术的信仰?时间会给答案。
但我想说的是另一件事。
---
四、特斯拉的自我修正
最有力的证据,往往来自"行动"而非"言辞"。
让我们看看特斯拉自己的技术路线演变:
- 2021年:特斯拉宣布移除毫米波雷达,全面转向"纯视觉"方案,理由是"简化架构、降低成本"。
- 2023年:HW4.0硬件被曝重新引入4D毫米波雷达,用于弥补纯视觉在特定场景下的不足。
- 2025年:FSD V14被业内分析可能由189个神经网络模型组合而成,而非马斯克曾宣称的纯粹"端到端"单一大模型。
甚至连最坚定的纯视觉倡导者,都在悄悄"补课"。
这本身就说明一个问题:纯视觉不是终局,而是一个阶段性的妥协——在商业成本和技术可靠性之间做的妥协。
---
五、技术人的本分
写这篇文章,不是要否定特斯拉的技术实力,也不是要站队某个阵营。
我想说的是:作为技术人,我们最怕的就是把"理论可行"当成"工程可靠"。
纯视觉在实验室里跑分很漂亮,在晴天的高速公路上表现也很流畅。但自动驾驶不是游戏,不能读档重来。每一个长尾场景的遗漏,都可能意味着一条生命的代价。
2025年10月,NHTSA(美国国家公路交通安全管理局)宣布对近288万辆特斯拉FSD系统展开调查,涉及闯红灯、违章变道等58起违规报告。
与此同时,特斯拉在中国市场也因FSD功能的宣传与实际性能问题面临多起诉讼。有律师指出,"Full Self-Driving"(完全自动驾驶)的命名本身就有误导消费者之嫌——毕竟它实际上只是L2级辅助驾驶。
回到开头的那个问题:人只用两只眼睛就能开车,所以摄像头也能吗?
答案可能是:在95%的场景下能,但在剩下5%的极端场景下,那可能是生与死的区别。
作为一个从代码堆里爬出来的技术人,我宁可要一套"笨重"但可靠的系统,也不要一套"优雅"但有盲区的方案。
毕竟,安全没有99分,只有0分和100分。
---
本文数据及案例均来自公开报道,包括NHTSA公告、法院诉讼文件、企业官方声明及行业媒体报道。