晚点:你现在最大的 bet (判断)是什么?
于骞:我坚信 “世界模型 + 强化学习” 是未来。
晚点:特斯拉是强化学习吗?
于骞:我敢把这句话放在这,现在没有一家公司能真正做到纯强化学习,特斯拉也做不到。我认为特斯拉现在还是很多模仿学习,不是纯强化学习。
晚点:你怎么定义世界模型?和业界提到的有什么不同?
于骞:我说的世界模型,不是在车端跑一个更大的模型,而是在云端搭建一个足够接近真实世界的虚拟环境,让模型能在里面运行、验证和迭代。
它和业界说的世界模型,尤其是李飞飞所说的那种更完整的物理世界模型,不太一样。后者要处理更完整的空间、因果和物理交互,上限更高,可以解决更普遍的问题,但代价也非常高。
自动驾驶面对的,其实是一个被简化过的物理世界。它不需要处理那么多复杂交互,比如碰撞、摩擦、温度。所以我觉得,世界模型会先在自动驾驶里落地。如果四个轮的机器人都搞不定,你去搞那些非结构化的场景更难。
我觉得自动驾驶通向未来物理世界很重要的一个入口,这个入口必须要解决掉。
晚点:很多具身公司 CEO 会认为,他们直接做机器人也可以解决这个 “入口”。
于骞:我觉得还差很远。人类学习很多能力,依赖的是在物理世界里不断试错,尤其是强化学习意义上的试错。小朋友学走路,都是摔很多次才学会的,它是一个在失败中学习的过程。但机器人没有这么多低成本失败的机会。机器人如果在物理世界里反复摔,摔十次,本体可能就坏了。
晚点:也有人质疑自动驾驶里的 “世界模型”,认为端侧根本不需要那么大的模型。
于骞: 我觉得现在很多人说的 “端侧世界模型”,更多是个噱头。本质上,它只是一个更强的预测模型,仅此而已,我不认为那是最重要的。
真正重要的世界模型在云端,作用是训练和验证,你可以把它理解成新的训练基础设施,不是直接搬到车上跑,也不是简单蒸馏到车端。更准确地说,云端世界模型是训练车端模型的一种方法,它提供了一个更高效的训练环境,让你能更快训练出更好的端侧模型。车端最后只会保留其中一部分能力,比如一个简化版的短时预测能力,去预测未来几秒钟的情况,比如 3 秒、5 秒。
真正的云端世界模型,是对物理世界规律更完整的理解。它可以持续运行,生成很长时间尺度的连续序列。给它一段视频输入,再加上方向盘、刹车、油门这些控制信号,它就可以在虚拟物理世界里持续 “漫游” 下去,不断生成后续状态,这是连续的、开放的。但车端没必要做这件事,车端只需要关心未来几秒钟。
晚点:训练强大的云端世界模型,通常需要海量数据。你们怎么高效获得这些数据?
于骞:是,而且这种 “海量” 比普通感知模型要求更高,因为它学的是一个动态世界。
对我们来说,肯定是要找出最优的效率最高的方式。因为是建立了一个新的生产环境,如果这个生产环境比你去物理世界采集数据还贵,那就没有意义了。早期其实有很多方法,比如先把 3D 世界完整建模、生成、再筛掉不合理的部分。这样也能生成很真实的物理环境,但成本甚至比路测还高。
所以我们的目标,不只是把环境生成出来,而是更高效地生成,同时尽量减少那些不真实的数据和毛刺数据。
晚点:我感觉你看技术,带着很强的系统工程视角,同时有很强的成本意识。
于骞:是,这方面我们受谷歌影响很深。团队里很多人来自谷歌和 Waymo,所以在软件工程上,有一套比较完整的方法。
只要涉及到物理世界,就不是单纯比算法。算法更新太快了,没有谁能永远领先;真正决定差距的,是你能不能更快把算法变成产品能力,能不能在更小算力的平台上把体验做出来。
所以自动驾驶拼到最后,拼的不是某一个模型,而是一整套工程体系:开发怎么做,验证怎么做,迭代怎么做,部署怎么做。谷歌过去在软件工程上沉淀了很多 “最佳实践”,后来基本都成了行业共识。现阶段全世界最好的工程实践一大半是谷歌来推动实现的。
晚点:下一个你们要挑战的高峰是什么?
于骞:我们今年会量产一套 500 TOPS 以上的方案。这套方案的目标,是把城市 NOA 的体验做到接近 L4——不是 L4,但非常接近。
算力不是线性增长的,100、200、300、400 TOPS,这种提升用户是感知不到明显差异的。新方案一定要带来代际级的体验跃升。如果只是比现在好 20%、30%,是没有必要重新做一套方案的。我们内部的判断是:成本可能增加 50%,但体验至少要提升一倍甚至更多,这件事才有意义。
这个行业是往上走的,不是往下走的。去年大家在做高速 NOA,今年是城市 NOA,明年就是 500TOPS 的城市 NOA,会非常接近 L4 体验。做不到,就会被淘汰。
我们希望把这套能力放到 10 万到 20 万的车上,让普通用户也能用到现在高端车才有的体验。我相信我们的价值很快会被大家认识到,今年就会看到 “地大华魔” 的排名有变化。