1925 年,一位纽约工程师造出了一辆特殊的汽车:这辆车没有司机,依靠无线电远程遥控,成功在街头行驶了 24km,这是世界上第一台无人驾驶汽车。整整一百年过去了,如果当时有人指着这辆车,告诉你一百年后也不过如此,恐怕你都不会相信。所以科技发展有时快得令人发指,有时又慢得不可思议。
前车无司机,后车跟着发无线电信号控制方向、油门、刹车。
DARPA 挑战赛
自动驾驶沉寂了近一个世纪,靠着一场挑战赛才又重新拉开技术飞越的序幕,那就是:DARPA 挑战赛。它是当代自动驾驶技术突飞猛进的源泉,也是如今自动驾驶圈大佬们的“成长摇篮”。DARPA (美国国防部高级研究计划局)发现美军在战场上的伤亡很大一部分是因为车祸,为了减少战场上的非战斗性减员,他们希望能实现地面作战车辆无人驾驶。DARPA 的思路是不能自己闷头研发,而是搭个舞台,让全世界最聪明人都参与进来,用百万奖金激发创造力。这场挑战赛前后共举办3届,每一届的主题、难度都在升级,逐步推动自动驾驶技术发展,最终奠定了如今自动驾驶的基础。
2004 年第一届:全军覆没
这是全球首场大规模自动驾驶赛事,核心主题是“沙漠无人越野”,规则只有一个:无人干预完成全程,冠军可获得 100 万美元奖金。DARPA 在位于洛杉矶东北的莫哈维沙漠上设定了一条 160 公里的“魔鬼赛道”,全程都是山丘、土路、岩石,模拟阿富汗和伊拉克的战场环境。
比赛一共吸引了 106 支队伍报名,最终 15 支队伍入围决赛,但结果全军覆没。成绩最好的卡耐基梅隆大学团队,也只跑了 12 公里,其他队伍要么刚起跑就翻车、要么抛锚起火、要么偏离赛道。
在一堆缓缓出场的四轮汽车中间,鸡立鹤群地出现了一辆摩托车。这辆摩托车叫“幽灵骑士”(Ghost Rider),出自一位 23 岁的天才莱万多夫斯基之手。他因为没钱买不起越野汽车,才突发奇想改造一辆无人驾驶摩托车。出场时这辆摩托车确实吸引了所有人的目光,都想看看到底有什么神奇之处。发令枪一响,所有车辆或快或慢出地启动出发,幽灵骑士突然一个不稳摔倒在起跑线上,成了第一辆出局的车。莱万多夫斯基花了大力气解决了摩托车的平衡问题,但由于太紧张,比赛前忘了打开稳定系统的开关,成了笑话。但他也凭借极致的执行力和创新力吸引了行业关注。
莱万多夫斯基于 2007 的第三界挑战赛加入了特伦的斯坦福团队,随后一起加入 waymo 成为其核心创始人。但他在离职前带走了 9.7 GB 的机密文件,因窃取商业机密与 waymo 对簿公堂,从行业天才沦为“窃密者”。而他在服刑前,又被特朗普特赦,留下一段充满争议的传奇故事。
第一届 DARPA 挑战赛看似是一场“失败”,但它实实在在孕育了“成功”。它第一次把“自动驾驶”从学术论文拉到了实际场景,聚集了一批热爱自动驾驶的人,形成了最早的行业社区。DARPA 也没有放弃,而是将第二届奖金翻倍至 200 万美元,鼓励所有人继续探索。
2005 年第二届:激光雷达一战成名
时隔一年,第二届挑战赛如期举行。这一届,技术上实现了决定性突破:4 支队伍成功完赛,斯坦福大学凭借一辆改装途锐越野车夺冠。他们在车辆上安装了 5 个激光雷达,尽管当时这款雷达的最远探测距离只有25米,却能帮助车辆精准识别沙漠中的障碍物,完成路径规划。这是激光雷达第一次应用在自动驾驶车辆上。
特伦是斯坦福大学教授,他当时想组建团队参赛,但是没钱没人。于是灵机一动,在学校里新开设了一门新课就叫“自动驾驶”,课程目的就是建造一辆能参赛的车辆。这门课吸引了大量学生参与,这批学生后来大多成为了行业的中坚力量。特伦随后也受到谷歌创始人拉里·佩奇邀请,组建了谷歌自动驾驶公司 Waymo。他后来也帮助谷歌建立了著名的 X 实验室。
卡耐基梅隆大学获得第二名,他们升级了传感器和算法,积累了大量沙漠场景的路测数据,为他们下一届夺冠积蓄了力量。
2007 年第三届:城市挑战赛,奠定了如今无人驾驶车辆的基本技术架构
第三届的比赛地点从沙漠搬到了城市,要求车辆能识别红绿灯,避让行人,能够实现会车、转弯和停车。共有 6 支队伍成功完赛,卡耐基梅隆大学夺冠。
这届赛事,技术实现了质的飞跃,奠定了如今无人驾驶车辆的基本形态:车辆包含由摄像头、激光雷达、毫米波雷达等传感器组成感知系统,由线控系统、计算单元等组成的控制系统。无人驾驶后面二十年的发展,就是在这个架构基础上进行不断迭代。
卡耐基梅隆大学团队利用在这届比赛中积攒的传感器融合、路径规划、行为决策等算法和经验,创建了自动驾驶公司 Cruise,后被通用收购。
6 支完赛队伍里有 5 支使用了 Velodyne 的激光雷达,直接确立了激光雷达在自动驾驶中的核心地位。原本做音响业务的 Velodyne,决定将全部资源转向车载激光雷达,成为后来自动驾驶领域的激光雷达巨头。
L1 - L5 分级
根据自动化程度不同,自动驾驶被分成五个等级:L1- L5。
L1
完全靠人驾驶,车子只能进行最低级别的辅助,在速度或方向上协助保持。比如定速巡航(协助保持速度),车道保持(协助保持方向)
L2
还是以人为主进行驾驶,车子的自动化水平有所提高,可以在速度和方向上有一定自助决策能力进行变化。比如自适应巡航,跟车,弯道跟线转弯等。
L3
车可以主导进行自动驾驶,人的双手和眼睛可以被解放出来干别的事情,但需要注意随时接管。
L4
完全由车主导进行驾驶,可以没有人类司机的角色,完全不需要接管。但有一个前提:特定路段。比如指定城市区域,或者指定园区和道路等。还没法完全像人类驾驶一样想去哪里就去哪里。
L5
真正的完全取代人类,无任何限制。车子可以没有方向盘,没有后视镜,没有刹车油门踏板。到这个阶段,车子形态也将被完全改变。
我个人理解对这个分类的理解:L1 级别现在几乎是个车就有。大部分的电车应该可以实现 L2。特斯拉,小米,问界等车可以实现 L3。Waymo,Cruise,小马智行,文远等车可以实现 L4。目前还没有汽车实现 L5,但 L4 到 L5 只是数据和测试用例覆盖面的问题,也就是时间问题。
技术路线
自动驾驶技术分两方面,一方面是感知,另一方面是决策,分别对应车辆的输入和输出。
激光雷达方案
感知技术主流是 DARPA 挑战赛时期就奠定了基础的激光雷达方案,当然摄像头肯定也是不能少的,所以大部分应该算是激光雷达 + 摄像头 + 毫米波雷达的融合方案。摄像头用于识别道路划线,红绿灯等物体;激光雷达用于感知路面情况,包括路面物体的大小、形状等立体特性;毫米波雷达用于识别路面物体的距离、速度等特性。
这种方案是目前感知能力最强,最安全的方案。所以几乎所有的 L4 车企都采用该方案。它的优点如下:
- 激光雷达全天候工作,适合任何天气任何光照亮度,不怕雨雾不怕夜晚。
- 这么多传感器结合,有足够冗余,一个传感器坏了也不怕。
缺点也很多:
- 成本高,一颗激光雷达大概在 5000 rmb 左右。
- 数据量大,大到数据传递不能靠网络传输,而是靠人工搬运硬盘。Waymo 的运维人员每天晚上从车子上把硬盘拆下来装到电脑上来拷贝数据,好搞笑。
- 算力和功耗要求高:既然数据量这么大,那处理这么多数据自然也不轻松。需要用到的算力和功耗相对汽车来说算是比较大的。
- 马路上车子多的话,不同车辆的雷达信号之间可能会相互干扰。
- 该方案必须配备高精地图。所以在城市测试好了,无法马上扩展到其他地方。也就是说从 L4 到 L5 的能力差。
纯视觉方案
大部分纯视觉方案是摄像头 + 毫米波雷达。作为纯视觉方案的带头大哥 -- 特斯拉,更是连毫米波雷达都省了。不过特斯拉最多算 L3,不是 L4。该方案的支持者最大理由是“第一性原理”:人体没有激光雷达,人类驾驶完全靠眼睛,凭什么自动驾驶不行?
纯视觉方案的优点对应激光雷达的缺点:
- 便宜:毕竟摄像头才几个钱。这些摄像头接近黑白和低分辨率,非常廉价。第一次看到特斯拉的行车记录仪的时候我惊呆了,现在想找画质这么差的摄像头不容易了。
- 数据量小,处理起来对算力、功耗要求低,可以支持本地推理运算,实现端到端。
它的缺点比较致命,涉及到安全。
L4 的车暂时还不能采用该方案。中国法规要求 L3 以上必须多传感器互补,这等于禁止了纯视觉方案,所以特斯拉在中国只能当做 L2 卖。
基于规则的决策方案
车辆根据预设的场景和规则来做出决策(是踩油门,还是打方向或踩刹车),这是现在的主流方案。从激光雷达感知输入,中间经过多个模块和步骤(预测和总结路面情况,匹配规则,根据预设的规则做出决策和规划),最终输出到方向盘、油门、刹车做出相应的行为。
它的最大的优点是:
- 可解释、可审计、可追溯:因为它所有的行为决策都是跟规则相匹配后做出的,所以有迹可循。
缺点:
- 没有人能穷举世界上所有的案例和规则:这是一个很好理解的缺点。开车上路,长尾问题太多了。
比如暴雨天要不要进隧道?基于规则的方案需要了解雨量大小,下雨时长,隧道深度,隧道长度,堵车情况,排水情况。这些信息如果不全的话,就不知道匹配哪条规则,很难做出决策。
基于 AI 的端到端方案
基于 AI 的端到端方案还是以特斯拉为代表在往前演进。虽然特斯拉不算 L4 级别的自动驾驶,但我们不得不再次提到它。它总是与众不同,不按常理出牌,而且出的牌还不烂。
什么是端到端呢?一端是输入(比如摄像头,激光雷达),另一端是输出(方向盘,油门,刹车)。从输入到输出不需要通过信息处理、规则匹配。通过一个预训练的 AI,对输入数据直接进行推理,结果直接呈现到方向盘、油门和刹车的行为上。
我们普通人开车不是基于规则的,没有人一边开车一边翻看交规或驾驶说明书,看看现在符合哪种预设场景,想想下一步该怎么做。人类开车就是端到端:从眼睛看到,到手脚操作,整个过程一气呵成。这个临场反应靠的是不断积累的驾驶经验。
跟人类老司机需要积累一样,端到端方案也需要通过大量的数据让车载 AI 成为一名老司机。这是 L4 车企很难解的一个死循环:不成熟不能上路,不上路没有数据,没有数据没法成熟。
特斯拉却轻松解决了。它不直接上 L4,而是从 L2 做起。先把销售市场铺开,AI 不是老司机没关系,先依靠人类老司机。每个特斯拉客户都在为它提供大量的数据,这些数据用来训练 AI,把它培养成老司机。
端到端的优点是解决了长尾问题:
- 它不匹配规则,所以不需要穷举每一个场景,了解所有的信息。它只是经过训练拥有了处理异常情况的能力,至于具体什么情况,怎么处理,靠的是临场发挥,随机应变。
听到这你可能会说:看起来不是很靠谱。是的,这是它最大的缺点:
- 不可解释、不可审计、不可追溯:就像你用豆包的时候,没有人知道豆包的答案是怎么来的。端到端驾驶,也没有人知道决策是怎么来的。这是 AI 的共性问题,AI 经过海量数据的预训练才得到这个输出,溯源是不可能溯源了。
其它方案
中国部分地方和公司在尝试车路协同方案:把一部分识别和算力移交给道路来完成,减少车辆的压力。这个方案听起来就很费钱,适合不差钱的基建狂魔。它可以让自动驾驶更快速落地,因为有了道路的加持,车子可以更好地感应周边的路面信息。它也可以帮助改善交通情况,给红绿灯提供数据支持。但它的扩展性太差了,只能在指定区域或指定道路上实现。目前也没有一个标准的车路通信协议,所以兼容性也很差。路得定制,车也得定制。整体来说,性价比是很低的,只能用来玩玩。
总结一下:传统的激光雷达和基于规则的方案,更像是人类为机器设计的方案。而特斯拉倡导的纯视觉和端到端方案,则像是人类自己正在使用的方案。孰好孰坏?不同人有不同的见解,交由大家来评判。
自动驾驶的应用场景
早上你出门去上班,车子自己已经从车位开出来,停在你家楼下等你了。你坐上后座,开始吃早饭或者刷一会儿早间新闻。车子到了公司,你下车上班,你的汽车可以变身出租车去接客赚钱,也可以自己去附近找个最便宜的停车位停好,也可以自己开回家停家里。
这可能是自动驾驶达到 L5 之后会出现的场景。听起来离我们既很近,又很远。很近是因为我们现在确实已经有无人驾驶出租车了,最重要的无人驾驶开车上路环节不再神秘。遥远是因为这个用例里有太多长尾问题需要解决,比如精准定点停车,比如去地下车库等非标小路等,要做到完全无人似乎还是遥不可及。
无人驾驶面临最尴尬的死循环就是:不上路没数据,没数据训练不出老司机,不是老司机监管部门不让上路... 为了打破这个循环,特斯拉采用的方案是先上 L2。也有很多公司选择先上特定应用场景:
内部园区
这是很容易想到的一个场景。普通马路不容易,园区内部马路就宽松很多。我之前在上海张江的人工智能岛上班,园区里很多 L4 级别的无人售卖车开来开去,偶尔也会开到外面马路上。有卖早餐,盒饭,棒冰饮料的。你随时可以把它拦下扫码购买。


快递配送最后一公里
亚马逊和沃尔玛都特别热衷于研究最后一公里的问题,因为这是它们最大的痛点。亚马逊有 Zoox,车子很小,但能坐人也能配送。沃尔玛跟 Cruise 合作,进行生鲜配送。
货车
一直以来,大型的无人驾驶货车都被认为可能会是发展最快的应用场景。因为它线路固定,基本处于郊区或高速路上,意味着场景简单,Corner Case 少,容易实现。而路线长,卡车司机又贵,意味着效益巨大。主打这条赛道的公司有 Aurora Innovation,Kodiak AI 等。
RoboTexi
无人驾驶出租车,这是所有做自动驾驶公司的终极梦想,也是最具挑战和最有价值的赛道。谁能从这条赛道上脱颖而出,谁就算是戴上了自动驾驶的皇冠。Google 的 Waymo 应该算是在这个赛道上暂时领先一个身位。 Cruise,小马,文远也紧随其后。上面提到的其他赛道的公司也在这里并行发展,谁也不想放弃这条皇冠赛道。
好了,自动驾驶的故事、技术路线、应用场景就先介绍到这里。后面的文章,我会继续介绍这一领域的头部企业,欢迎关注。
免责声明:本文内容仅为个人观点与信息分享,不构成任何投资建议。市场有风险,投资需谨慎。
都看到这儿了,动动你博爱的小拇指点个赞吧!!!
如果你也关注美股,追求长期的价值投资,加我的公众号一起交流吧。