自动驾驶真正的终局,没人说清楚过
我一直觉得,自动驾驶这个赛道,绝大多数人都在聊错方向。大家聊的是:谁的激光雷达更好?谁的摄像头算法更强?谁先落地商业化?相机和激光雷达在一起做融合,就像瞎大爷过马路,拉上聋大奶奶,聋大奶奶说不出来,但她能领路,这俩人凑一起了,过了马路。感知融合,是现阶段自动驾驶的主流方案。一个负责"看",一个负责"定位",两者互补。这没问题。融合方案能解决"感知"的问题,解决不了"理解"的问题。我先说主流路线,也就是现在大多数新势力在走的路——VLA路线。VLA是什么?Vision-Language-Action,视觉-语言-行动。简单说:把摄像头看到的画面,先翻译成人类语言描述,再通过语言模型理解,最后输出驾驶行为。听起来很合理,对吧?借助大语言模型的能力,理解复杂场景。我们为什么要把它变成一个人类所讲的语言?物理世界,和语言世界,天然存在信息损耗。中文和英文之间,很多概念就已经对不上了。物理世界和人类语言之间,信息缺口只会更大。你强行用语言描述一个复杂的驾驶场景,就像用文字描述一首音乐——能说,但必然失真。业内几乎所有新势力,都在跟着主流论文的方向走VLA。但特斯拉,没有公布自己的技术路径。其实就是特斯拉没有公布出它的这个技术路径。然后这边一下子就觉得猜不着,只能说按照主流的论文的方向去做。波粒二象性是指光波既是波又是粒子。它既表现成像一个球,又表现出像一个波。这是我们人为了理解强行把它变成这样。机器不需要套人类的框架。它可以用自己的方式理解物理世界——用Token。不是把场景翻译成语言,而是直接把场景打包成一种机器原生的表达形式。其实自动驾驶当中的这个所谓VLA当中的中间部分,就是我们在把这个视觉和最后的Action就是行为之间做转换的过程。我们尽量用一种隐藏的Token来表示。视觉输入,到行为输出,中间那层转换,尽量不经过人类语言。不论是怎么起名字吧,只要L不去掉这个限制就解除不了。这不是工程问题,是路线问题。工程优化解决不了路线的天花板。语言模型处理层、基于语言理解的感知模块——这些如果深度绑定了VLA路线,一旦行业切换方向,就是硬切。不管走VLA还是Token化,都需要算力。都需要数据。都需要传感器。都需要高精地图。但更值得关注的,是押对了Token化路线的整车厂或技术平台。因为Token化路线,数据飞轮的壁垒比VLA更深。VLA的能力上限,在语言模型本身。语言模型是公共资源,大家都能用。但Token化路线,要训练的是机器对物理世界的原生理解。这个理解,来自海量真实驾驶数据的持续喂养。数据越多,Token化的世界模型越准。这是一个正反馈循环。我觉得,自动驾驶这个赛道,现在真正的分水岭不是"谁更快落地"。现在大多数人盯着的那些指标——每公里接管次数、城市路段覆盖率——都只是短期的。真正的终局,是谁能建立起对物理世界的原生理解能力。这个能力,用语言模型压缩不出来。只能用数据和时间,一点一点喂出来。所以我的判断是:这个赛道,接下来的竞争,会越来越像AI基础模型的竞争看清楚这一点,很多所谓的"弯道超车"叙事,就自然站不住了。我是亮哥。关注我,带你穿透产业迷雾,吃到硬核科技爆发的真正红利。觉得内容能帮你,点赞 + 推荐,关注我,做有底气的产业赢家。
往期推荐: