巴掌大的挡风玻璃设备,就能让你的燃油车拥有L2+级自动驾驶能力——这不是科幻,是Comma AI用开源方案做到的量产落地。
本期内容来自AI落地科普播客《Practical AI》,我们邀请到Comma AI的CTO哈拉尔德·舍费尔,拆解开源自动驾驶栈OpenPilot的技术细节、商业化路径与开源逻辑。节目覆盖了OpenPilot放弃ROS的底层逻辑、Comma自研的商用扩散模拟世界模型、开源自动驾驶的商业化优势,以及普通人快速安装自动驾驶设备的完整方法,不管你是AI从业者、自动驾驶爱好者还是普通车主,都能从中看懂自动驾驶的真实落地逻辑。
主持人丹尼尔·惠特耐克开场时提到,第一次接触Comma的车载设备就被实用性打动,这也是这期节目的缘起。
2017年哈拉尔德加入Comma时,OpenPilot还只是需要外接高性能笔记本的简陋原型,高速巡航都容易出现偏差。彼时不管闭源大厂还是开源社区,都没有成熟的量产自动驾驶方案。
如今9年过去,OpenPilot已经是GitHub上排名第一的机器人项目,超过50%的用户行驶里程完全由系统接管,成为全球最受欢迎的开源自动驾驶栈。
哈拉尔德回忆,自己入行的灵感来自Waymo前CEO克里斯·厄姆森的TED演讲——对方曾希望自己的孩子不用考驾照。尽管完全自动驾驶的终极愿景尚未实现,行业已经迈出了关键一步。
不少听众好奇,OpenPilot为何不直接用成熟的Robot Operating System(ROS),而是自研整套通信栈?
哈拉尔德给出明确答案:“我们一开始就没考虑ROS,车载场景对延迟要求极高,我们的零拷贝通信机制效率远超ROS,完美适配车载有限的算力硬件。”
这一选择的核心逻辑在于,车载场景对延迟的敏感度远高于工业机器人,零拷贝通信能省去数据拷贝的额外开销,让低算力设备也能流畅运行自动驾驶系统。
开源是Comma的核心坚持。哈拉尔德表示,开源方案能让用户完全掌控车载设备,规避闭源产品可能存在的间谍软件风险,同时社区可以快速适配新车型,这是闭源方案难以实现的优势。
OpenPilot的代码结构兼顾了效率与灵活性:Python占比约三分之二,用于快速迭代与机器学习训练;核心车辆接口层则用C++编写,满足安全合规要求。不同于工业机器人的窄应用场景,自动驾驶是少数能直接面向消费者的实用机器人技术,这也是Comma选择该赛道的重要原因。
自动驾驶技术路线主要分为两类:传统方案依赖语义分割与手动规则,端到端方案则直接从传感器数据映射到驾驶动作,OpenPilot是最早落地端到端方案的团队之一。
哈拉尔德解释,单纯的模仿学习不足以应对复杂真实路况,因此OpenPilot用模拟器训练模型,让系统学会从车道偏离等错误中恢复。今年Comma推出业内首个商用化的扩散模拟世界模型,Comma是首个商用化扩散模拟世界模型的自动驾驶团队,能生成和真实场景一致的训练数据。
他进一步说明:“传统模拟场景太过‘假’,我们的扩散模型能根据车辆转向、油门输入实时生成对应路面画面,相当于给训练开了‘上帝视角’,大幅降低真实数据收集成本。”
目前特斯拉、Waymo等大厂也在逐步转向端到端技术路线,OpenPilot的早期尝试已验证了这套方案的可行性。你觉得这种用模拟数据训练的方式,能替代部分真实路测吗?
目前Comma的车载设备算力仅为特斯拉FSD计算机的1/100,这是因为设备安装在挡风玻璃上,散热条件有限,无法使用高功耗芯片。
哈拉尔德提到:“挡风玻璃散热是我们最大的限制,外置GPU是解决算力瓶颈的关键一步。”这款即将推出的外置GPU可安装在座椅下方,避开了挡风玻璃的散热限制,能带来10倍甚至100倍的算力提升。
早期测试显示,外置GPU加持下,OpenPilot的绿灯检测准确率能提升一倍,复杂场景的应对能力大幅增强。你有没有想过,车载自动驾驶的算力限制,居然来自挡风玻璃的散热?这正是Comma需要突破的现实难题。
很多人以为自动驾驶设备安装和使用非常复杂,但OpenPilot的用户体验却十分友好。
哈拉尔德介绍,安装仅需拆下后视镜盖板、连接车辆CAN总线、将设备固定在挡风玻璃上即可;激活系统只需按下原车巡航控制按钮,界面与语音反馈清晰易懂。
目前OpenPilot在高速路况下表现已相当稳定,超过一半的用户高速里程完全由系统接管,团队正重点优化城市路况与红灯识别准确率。主持人克里斯·本森补充道:“我身边已经有不少朋友安装这套设备,高速出行时确实能大幅减轻驾驶疲劳。”
不少人以为OpenPilot只是车载自动驾驶方案,但哈拉尔德透露,团队已将这套技术平移到其他机器人场景。
他说:“我们已经把OpenPilot的端到端学习框架应用到室内导航机器人上,目前正在进行beta测试。长期来看,我们还想把这套逻辑用到机械臂操作上,让机器人完成抓取、组装等任务。”
在他看来,自动驾驶与其他机器人任务的核心逻辑相通,都是通过传感器数据学习完成目标动作。这意味着OpenPilot的技术潜力远不止于汽车,未来可能渗透到更多日常家务与工业场景中。
哈拉尔德在节目中列出当前自动驾驶领域的三大核心未解决难题,每一项都需要长期技术突破。
第一个难题是车辆控制适配:不同车型的CAN总线响应逻辑差异极大,目前Comma靠经典优化适配轮胎摩擦系数,但尚未有成熟的ML解决方案。第二个是强化学习的落地:当前RL策略无法在嘈杂的真实反馈循环中稳定运行,尽管人形机器人领域已有一些进展,但还不足以应用到自动驾驶中。第三个是持续学习能力:人类司机能根据路况快速调整,但当前ML模型无法自动适应轮胎气压变化、雨天路面摩擦降低等场景,目前只能靠经典优化临时解决。
他总结道:目前自动驾驶的核心瓶颈不在感知,而在车辆控制的适配与持续学习能力。这打破了很多人“自动驾驶只差感知”的误区,其实适配和持续学习才是更大的落地挑战。
这期播客让我们看到,自动驾驶并不只是大厂闭源的军备竞赛,开源路线同样能做出实用的量产产品,甚至在用户控制权与适配灵活性上更具优势。不管你是AI从业者、自动驾驶爱好者,还是普通车主,都能从这期内容中看懂自动驾驶的真实落地逻辑,不再被大厂的宣传话术迷惑。
开源自动驾驶的核心价值,在于让技术回归用户本身,而非被少数大厂垄断。
觉得有收获,欢迎点赞、在看或转发给身边的科技爱好者。
往期精选:
搭建 AI 快播社:我如何用 AI实现 7x24全自动内容生产