为什么自动驾驶纯视觉方案更优
一
在2021年宣布去掉毫米波雷达后,特斯拉继续在2022年宣布去掉超声波雷达,到2023年,所有新产的特斯拉车型都只有纯视觉方案的摄像头了。
国内较早的自动驾驶玩家,2016-2017年成立的百度Apollo、小马智行、文远知行,是包含LiDAR在内的多传感器融合方案;2020年以后的、近年来的玩家,华为ADS、比亚迪,也都是多传感器融合方案。小鹏在2024年,把两年前刚加上的LiDAR又去掉,也提出了纯视觉方案。
以上都是普普通通、老生常谈的新闻了。我不在自动驾驶的行业内,最终哪家公司以什么样的方案做了多少营收和利润,我不关心。
但是,从中折射出的,在所面临的问题里,如何选择路线、如何评估,倒很值得说道。
如果你想跳过自动驾驶的案例,也可以直接翻到最后看结论。
二
反对纯视觉方案的观点无非是,「明明有用的东西,为什么非得去掉?」
LiDAR这么高精度,是什么东西都能扫描的明明白白,加上怎么就不好了?
毫米波这么久的东西了,无论是从市场多年看来、从可靠性、从精度看来,都是经过验证的、好用的,居然还要去掉?
超声波就更是了,谁停车没凭借过前后雷达定位啊,怎么连它也要拿掉?
开车快要撞上了,凭借雷达传感器,一下子就能感知、刹停,但要靠摄像头,还要不断的软件迭代才看似能做到,这不是舍近求远吗?
光凭这么些“令人陌生的”摄像头,就要替代多年以来成熟使用的传感器,「万一出了问题咋办?」
「好用,那就用;用得好,那就一直用。」
这样的思维,是典型的门外汉思维,是事不关己的敷衍,是回避思考的草草了事,最终是一种不负责任。
否定是需要能量的。世界总是在熵增,但只有在熵减时,才说明存在着推动发展的能量。
三
核心话题自始至终只有一个:如何建设一个自动驾驶的方案。而不是自动驾驶需要些什么。
有很多东西都能为自动驾驶做出正面贡献,所有的传感器都可以,包括超声波提供超近雷达而可以无视视觉条件的妨碍,毫米波在相当的距离上提供可靠精确的距离、速度测算,LiDAR 绘制高清的 3D 表达。但这些都与核心话题无关。
自始至终只有一个问题:什么东西能对建设一个自动驾驶的方案做出正面贡献。
区别在于,我们只关心如何建设出「一个能够自动驾驶」的方案,而不是如何能把所有有利的因素全部用尽 —— 因素固然有利,但如果「用」之不利,效果可能大打折扣。
正如同,酸甜苦辣咸各有所长,但硬加到同一份菜里,好吃的可能性着实不大。非得把全世界的美食揉到一个包子里,难道就一定是美味?
我们只要有一个能够自动驾驶的方案就足够了。
如果只用单一因素就足够开发,那么就没有必要加入第二因素。如果应该加入第二因素,那就说明有一些场景用例,非用上第二个因素不可。能做到这一点,就能说明,这个系统是好的,是充分的,是紧致的,是不容易挤出水分的。
四
多个因素固然都有益,但存在于同一个方案中,因素之间可能产生妨碍。一加一,经常小于二。
一个多传感器融合的方案,在复杂路况中,每一个因素都在积极发言。
同样是摄像头识别到笔直车道,LiDAR 识别到旁边有车,如果是低速可能需要注意鬼探头、小心通过,如果是高速路上可能要提速、避免并排行驶。如果此时LiDAR发现旁边车辆速度突然发生显著变化,系统应该如何反应?突然摄像头接着发现旁边车辆打出灯信号,是否跟系统决定的反应冲突?又该如何反应?
自动驾驶系统的反应,即内部决策时延、内部各因素之间的沟通,在多传感器融合、多因素耦合下,是更快还是更慢?是更简洁直达还是更复杂更来回倒腾?
答案是显而易见的。以简化的二值模型为例,为了理解同样的一个测试场景,单因素模型只需要处理两种情况,双因素模型则需要四种,三因素模型则需要八种。融合方案有多少种传感器、每种又各有多少个呢?在连续的、无限的传感器信号中,复杂程度更会被无限放大。
一个系统中,因素越多,复杂程度就会指数级地升高,这是常识,在工程中是这样,在人类组织里也是如此,在各行各业中都有一样的共识。
假设自动驾驶系统必须多传感器融合才能实现,那意味着一定是:摄像头获取到同样的输入时, 必须通过 LiDAR 的信号才能决定不同的动作,并且在 LiDAR 同样的信号下,必须通过摄像头才能决定不同的动作。否则,要么只需要摄像头,要么只需要 LiDAR,就足以决定如何驾驶,绝不需要两者加在一起才能工作。
解决人类常力无法梳理的复杂度,是 AI 的强项。只要系统有一个明确的目标,AI 就能在收集的足够多的数据里找到,能达成这个目标的最好的路径。只要收集的数据足够好、足够贴近现实,这条路径在现实中的表现就足够好。在 AI 的发展里,这样的事实已经一次又一次的被证明,在今天,已经没有人怀疑 AI 这方面的能力了。
有人说,既然多因素的系统如此复杂,用 AI 不就好了吗?
对啊,用 AI 不就好了吗?
如果纯摄像头就足够支撑自动驾驶,只需要收集纯摄像头的训练数据,就能用 AI 来找到纯摄像头自动驾驶的路径;
如果纯 LiDAR 就足够支撑自动驾驶,只需要收集纯 LiDAR 的训练数据,就能用 AI 来找到纯 LiDAR 自动驾驶的路径。
如果要摄像头加 LiDAR 的融合方案,必须收集既有摄像头,又有 LiDAR,还有两者在不同的信号冲突下的每一种路况的数据,数据量充足到足以完全区分在所有路况下所有信号的不同组合,才能用 AI 找到融合自动驾驶的方法。
既然都是用 AI,既然都是找数据,为什么非要做融合方案?
剩下的问题只有一个:纯视觉方案足够支撑自动驾驶吗?
答案是显而易见的,因为特斯拉 FSD 纯视觉方案的自动驾驶已经在跑了。成绩姑且不论(大家也知道),「能做」的事实足矣。
如果纯 LiDAR、纯毫米波也能支撑自动驾驶,同样也不失为一种好方案。摄像头本身更加自然、天然就存在更多的数据、工程人员更容易获取和理解,这都构成更加有利的开发因素。
五
融合方案的自动驾驶,没什么低人一等的。技术方案而已,没有好坏贵贱之分,能逮着老鼠的就是好猫。
特斯拉也是从融合方案起步的。
2014 年起,特斯拉使用 MobileEye 的方案,预置了毫米波、摄像头、超声波的硬件,并在持续的软件推送中,提供了 Autopilot 的辅助驾驶服务。
特斯拉凭借融合方案站住了市场,并且成功孵化了自研的芯片、走通了纯视觉的验证。
即使 MobileEye 拒绝被赛马替代,在2016年终止合作,不过特斯拉的纯视觉方案成功在 2017 年追平了之前的系统效果,逐渐发展成现在和未来的FSD。
融合方案是显然能 work 的,每一个技术人都不会怀疑它的可行性。但一旦证明单一因素也能 work,融合方案立刻就成为「一定不是最好」。
可见,融合方案是有效的,是早期发展的必经之路,能为研发更好的方案争取到必要的时间、经验、钱、市场。用这些争取到的资源,才能再孵化出下一代更好的系统。
特斯拉是先发者,所以它有资格按照这样的路线走出来,同时享受了勇敢者、先行者的应有的优势和待遇。
对于所有的后发者,融合方案既是救命稻草,也是唯美的毒药。所有人都要经历一遍从无到有,也没有人能一蹴而就。因为方案总是要慢慢做得更好的,短期里方案有更高的下限更重要,但在长期还要看方案的上限。所有的传感器都是拐杖。全身到处都是拐杖,走路自然不会摔,但要走得快、走得远,总有一天,该把拐杖抛开。
也有一种妥协主义会认为,即便融合方案的复杂程度高,假如一直投入,把它做到 90 分,即使做不到 100 满分,不也没什么差别了吗?如果是学校里考试,或者公益活动,那或许可行,但事实是冰冷的、市场是残酷的。作为生意,资本需要的是竞争优势。假如走到最后,大家的方案看似都能 work,那融合方案多出来这么多传感器,不都是成本吗?除了购车成本,维修、零整比、保费,都占尽劣势,更别说供应链管理、产品版本迭代、更加庞大的技术团队等等更加高昂的经营成本。
如果单一因素的方案能达成一样效果,凭借低廉的成本,相信谁都不会拒绝。说到底,这个结论是业内共识,也是业外懂点技术的人的共识。
六
正如开篇所说,我不在自动驾驶的行业内,最终哪家公司以什么样的方案做了多少营收和利润,我不关心。
以上的讨论只是一个引子,我关心的是「单因素有效」所体现的核心原理。
大家都知道大道至简,但明白为什么「至简」的人却不多。不是大道「简」,而是我们要以最简单、最直接、最核心的方式,才能接近大道、理解大道,才能离大道尽可能的近。
大道可以复杂得无可复加,但人类必须尽可能提炼自己的认知,以一种看似最简单的方式,才能够最有效地、尽可能地接近它。
大道至简,所简者不是大道,而是我们的认知。如果不能从一个因素上把握全局,那么考虑再多的因素,也只是徒增复杂、自欺欺人。直到把每一种因素都能吃透,才有资格去考虑不同因素叠加时所产生的微妙差异。
如非必要,勿增实体。
很多人总是把这句话误解释为,世界运行的规律就是应该越简单才越正确。实际上,世界运行的规律,爱有多复杂就多复杂,爱有多简单就多简单,世界运行本无所谓复杂或者简单,世界就是世界本身而已。是我们认识这个世界的方法和工具,有复杂和简单。我们只能从简单的方法开始,才能有效的认识世界。
如果按照简单的方法都认识不了,加上复杂的条件和规律,只能让我们更迷惑,我们甚至无法分辨复杂化之后哪些是对的、哪些是错的,似是而非的符合事实可能只是一厢情愿的解读而已,我们甚至无法对其证伪。
在 AI 和机器学习里,一味的妄加参数,把模型复杂化,只会让模型越来越过拟合到训练数据中,不仅对结果表现的提高毫无帮助,更会让其变得一塌糊涂。
大道至简。
如非必要,勿增实体。
不要对因素之间波峰叠加的共振产生惊喜,要在那之前就读到波峰;不要在因素抵消的平静之处放松警惕,应在其中看到剧烈的冲突。
七
回到频道中来,做交易是一样的道理。
如果能依靠一个核心技术指标来指导交易,轻易不要添加第二个。
我个人是价格流派,在策略开发、实践验证出来之前,甚至不在意成交量,更不会去碰消息、财报。
不要以为打开交易软件,把上面所有的信息都读一遍,就叫做交易了。如果只从中看一项指标,还能交易并持续盈利,这才叫做交易。
本质上,交易就是交易,没有流派一说。有人看价格,有人看量价,有人蹲价值发现,有人读短暂的谎言,有人赌情绪、消息,有人什么都不看而只看时间。
但其实所有人都在同一个市场里,我们看的都是同一个盘面。
复杂和简单都以人的认知为前提。天地以万物为刍狗,交易本身无所谓复杂简单,所有的因素的集合组成了交易。是我们要对交易产生认知,才有了这个流派那个方法。既然要产生认知,就不要给自己增加负担。用一个因素都读不懂,就不要妄图增加第二个因素。
自始至终,核心主题只有一个:找到你的大道里的那个「至简」。条条大路通罗马,道有千条我取其一,只要走通了,所有人都在同一个顶峰相见,但来时的路都是独一无二的。
「一个因素更好」颇有点反直觉,只有靠认真思考,才能克服「多多益善」的惯性思维的熵增,持续进步。
* 本文手敲无 AI