作者丨Feynman@知乎
链接丨https://zhuanlan.zhihu.com/p/1996263032226064192
来源 | 智猩猩PhyAI
点击下方卡片,关注“自动驾驶之心”公众号
>>国内首个自动驾驶全栈交流社区:自动驾驶之心知识星球(戳我)
本文已获转载授权,转载请联系原文作者
简洁版
1. 核心算法层面,大家都走到了端到端方案,抛弃之前的模块化方案。(至少公开层面是这样讲2. 除了端到端,基本上都引入了世界模型。有的是用世界模型生成训练数据,有的用世界模型做训练闭环/测试闭环,还有的在端到端模型中引入世界模型,直接提升端到端模型效果。- note:世界模型有两个定义,一个是生成的世界模型,就是做视频生成的。另一个则是预测的世界模型,就是预测世界环境的变化,后面这个可以集成到端到端模型中。这个可以参考 翻译-迈向视频世界模型(Towards Video World Models)。
3. VLA有些争议,有的公司觉得VLA中的L(Language)在自动驾驶中没必要,就跟人开车的时候不会把所有的理解都用语言说出来,而是直接操纵方向盘了。4. 闭环从最开始的数据闭环,走到了现在的仿真测试闭环和仿真训练闭环。5. 3DGS是构建仿真环境的重要技术,特斯拉在CVPR 2025上专门提到了这点。6. 核心算法层面外,基建是非常关键的。小米/理想在分享中明显提到了基建的好处,最近的OpenAI的翁jiayi也提到了ideas are cheap, iteration speed matters。7. 除技术外,组织能力也非常重要。现在动不动就是大几百,一两千人的智驾团队,这些人如何协同做一件堪比登月的事情,是一个很大的管理挑战。(1)地平线在分享的时候强调了这点,deepseek之前的分享也提到了团队文化的重要性。(2)这点个人非常认可。一个技术和管理都很复杂的问题,再交给一群非常聪明而且善于寻找大厂运作方式的高智商人群,管理者一不小心就能被内斗耗上几年。(3)举个例子,田渊栋在自己的经历中就分享到从google 无人车退出的经历。他在自动驾驶什么时候才会凉凉,估计还要多久?明确提到在智驾领域,协调问题的责任划分就是很challenge的事情。1. 核心技术演进与派别之争
核心结论:
- 共识:端到端(End-to-End)是基础架构,世界模型(World Model)是训练与验证的关键基础设施;
- 高阶认知:出现了VLA(引入语言模型进行逻辑推理)与WA(剔除语言环节追求直觉反应)的路线分歧,这本质上是对计算效率与推理能力(快思考 vs 慢思考)的不同权衡。
支撑论点:
(1)基石共识:端到端与数据驱动是必经之路
- 一段式端到端(One-Stage E2E)已被验证可行(如特斯拉FSD V12),它统一了L2和L4的开发范式,打破了规则驱动的上限。
- 未来三年是现有深度学习范式的“极致优化期”,而非理论重构期,核心在于通过数据“种树”,让能力自然生长。
(2)关键分歧:VLA(逻辑)与 WA(直觉)的路线之争
- VLA派(理想、英伟达):认为AI需要具备“思维链”和解释能力。VLA不仅能驾驶,还能用语言解释“为什么减速”,处理未见过的长尾场景(System 2,慢思考)。
- WA/反VLA派(华为、小鹏):认为驾驶更像“直觉反应”,引入语言(Language)环节会增加延迟和算力消耗,应直接从世界模型映射到动作(System 1,快思考)。
- 务实派(小米):不纠结名词,追求“智能密度”。当前主推“端到端+世界模型+强化学习”解决直觉问题,内部预研VLA以备复杂推理需求。
- 作为模拟器:解决数据长尾问题。通过生成式AI(如英伟达Cosmos、小米世界模型)构建高保真虚拟环境,让车辆在其中“做梦”和试错(强化学习),从而实现从“模仿人类”到“超越人类”的训练闭环。
- 作为大脑:赋予车辆因果推断能力(例如预判物理碰撞),弥补纯模仿学习的不足。
2. 各家公司技术选择对比表
| | | |
|---|
| VLA (Vision-Language-Action) | 认知驱动:认为单纯的数据闭环(模仿)不够,必须走向训练闭环。VLA能让车从“模仿”进化到“自己学会”。 | 训练闭环核心:利用《World4Drive》等模型构建可探索的虚拟世界,进行策略优化。 |
| | 可解释性与推理:发布开源VLA模型Alpamayo,强调AI不仅要会开,还要能解释决策(如“前车刹车灯亮,所以我减速”)。强调“Test-time Scaling”(让AI多思考一会儿)。 | Omniverse & Cosmos:用于生成合成数据(Synthetic Data)和物理模拟,训练机器人/车辆学习物理定律。 |
| 端到端 + 世界模型 + 强化学习 (预研VLA) | 智能密度最大化:不制造技术焦虑。当前方案解决“直觉”(System 1)问题,效率更高。VLA类似“看悬疑片”(System 2),仅用于极复杂场景。 | 高保真模拟器:在模拟中进行强化学习(RL),“走错了扣分,对了加分”,解决实车难以覆盖的长尾场景(如高速风叶车)。 |
| | 范式统一:认为FSD V12证明了端到端的可行性。未来三年是“极致优化期”。统一L2与L4的开发范式,通过海量数据让能力自然“长出来”。 | 未详细展开:主要强调通过统一范式和低成本部署,打通L2到L4的壁垒。 |
| | 去语言化:认为驾驶主要是直觉反应,不需要经过语言(L)环节,直接从对世界的理解映射到动作,以降低延迟和算力负担。 | 核心架构:利用世界模型理解环境演变,直接指导动作生成。 |
3. 核心技术关系
这些技术并非孤立存在,而是呈现出分层互补的关系:
- 局限:主要是“模仿学习”,上限受限于训练数据,缺乏逻辑推理。
(2)中间加速器:世界模型 (World Model)- 对内(训练): 作为“超级模拟器”,生成大量合成数据(解决Corner Case),让端到端模型在虚拟中通过强化学习(RL)反复试错迭代。
- 对外(推理):作为“预测机”,帮助车辆理解物理规律和因果关系(如:球滚出来后面可能有人)。
(3)顶层大脑:VLA (Vision-Language-Action)- 作用:引入大语言模型(LLM),赋予车辆逻辑推理(Chain of Thought)和长时记忆能力。
- 场景:用于解决端到端无法处理的、需要复杂博弈或逻辑解释的罕见场景。
- 代价:算力消耗极大,推理延迟较高(因此华为/小米目前倾向于在多数场景下不强制使用L层)。
总结: 现在的竞争焦点在于如何利用世界模型“榨干”数据的价值(训练闭环),以及是否需要在车端实时引入语言模型(VLA)来进行决策。
基于提供的资料,除了端到端、VLA(视觉语言动作)等核心算法架构的选择外,智驾行业的竞争早已超越了单纯的模型之争。研发基建(Infrastructure)、数据策略(特别是仿真)、算力规模与芯片适配、工程化能力以及用户体验的落地,成为决定智驾成败的关键变量。
以下是影响智驾发展的五大关键非核心技术因素:
1. 研发“基建”与工程效率
如果说算法是“菜谱”,那么研发基建就是“厨房”。
- 基建决定迭代速度:小米智驾负责人陈光指出,基建(以数据为核心的研发效能)是关键。如果“厨房”里有人把菜洗好、案板放好,做饭就会很快。小米能在一年内实现“追三代”的技术跨越,核心在于云端基建的复用和自动化率的提升。
- 挖掘与闭环效率: 基建的好坏取决于发现问题后,能否迅速从海量数据中挖掘出类似场景,并形成高质量标注数据进行训练。
- 组织工程能力:地平线苏箐强调,面对技术范式变化(如从规则驱动转向端到端),唯一的确定性是强化公司的工程能力和组织能力。这被视为公司的“工业母机”,只有具备集团军作战能力,才能消灭新技术导入期爆发的海量问题。
2. 仿真与合成数据("Physical AI"的训练场)
单纯依赖真实路测数据已无法满足高阶智驾的需求,“仿真(Simulation)”成为解决长尾问题(Corner Case)的核心。
- 解决“长尾”难题:真实世界中极端危险或罕见的场景(如高速路上运输几十米长的大风叶)很难采集,但在仿真器中很容易生成。小米陈光透露,在训练数据中,仿真数据占比约为20%,但这20%的数据价值极高,节省了数倍的人力成本。
- 合成数据的兴起:英伟达CEO黄仁勋指出,为了教AI物理世界的常识(如因果关系、物体恒存性),必须使用合成数据生成(Synthetic Data Generation)。英伟达通过Cosmos世界模型生成符合物理定律的视频数据来训练自动驾驶模型Alpamayo。
- 训练闭环:理想汽车等公司强调从“数据闭环”走向“训练闭环”,即让AI在虚拟世界中进行强化学习,自我探索最优驾驶策略。
3. 算力规模与芯片适配("Engine")
智驾不仅是软件问题,更是算力和硬件的暴力美学。
- 算力就是工业本质:地平线苏箐直言,计算机工业的本质就是“玩命堆算力”,未来每一代产品都将坚持十倍算力提升。英伟达发布的Rubin平台更是为了应对每年增长5倍的AI思考(推理)需求,通过提升算力将推理成本降低至原来的1/10。
- 芯片迁移成本(护城河):算法上车面临巨大的“部署偏差”。陈光指出,从一颗芯片迁移到另一颗芯片(如从Orin到Thor,或跨品牌迁移),通常需要6-10个月的时间来解决算子支持、计算精度对齐等问题。这种高昂的迁移成本构成了芯片厂商的护城河。
- 显存墙与记忆:随着AI开始进行长序思考(System 2),车辆需要记住漫长的对话和上下文,这对车载芯片的“显存(Memory)”提出了巨大挑战。
4. 商业化成本与泛化能力
- 成本决定普及:技术再先进,如果成本无法覆盖(Cover),就难以量产。智驾系统的目标是将L4级体验以极低的部署成本普及到10万元级别的车型上,。英伟达推出Rubin架构的核心逻辑之一也是解决Agentic AI“算不起”的问题。
- 泛化效率: 过去L4自动驾驶需要在一个个特定区域(ODD)反复打磨,而新一代端到端技术通过数据驱动,在一个复杂城市搞定后,大概率能泛化到整个国家,极大地降低了扩张成本。
5. 用户体验与安全冗余
- 拒绝技术焦虑:小米陈光认为,用户不关心背后是VLA、WA还是VA,只关心体验。技术先进性不等于体验更好,必须在收益和风险之间取得平衡,避免为了“显摆技术”而制造焦虑。
- 双栈安全机制: 即便是目前最激进的端到端方案,也需要安全兜底。英伟达展示的方案中,包含了一个经典的AV栈(规则驱动)作为安全护栏。当端到端模型(Alpamayo)遇到信心不足的场景时,系统会回退到更安全的规则系统,确保持续安全。
总结: 智驾的下半场竞争,除了核心算法的“智力”比拼,更是数据工厂的生产效率(基建)、虚拟世界的构建能力(仿真)、算力成本的控制力(芯片)、以及最终产品定义能力(体验)的综合博弈。
参考文章
小鹏:[CVPR'25] Keynote - Xianming Liu, XPeng
特斯拉:ICCV 2025 Tesla FM 分享总结
理想:理想ICCV'25分享了世界模型:从数据闭环到训练闭环
小米:21对话|小米陈光:我们不想制造技术焦虑了 - 21经济网
地平线:地平线副总裁兼首席架构师苏箐:未来每代产品将十倍提升,统一范式贯通L2-L4 | 雷峰网
英伟达:黄仁勋CES演讲全文来了!Rubin全面投产,算力暴涨5倍,砸掉智驾门槛All in物理世界
大疆卓驭:对话卓驭沈劭劼:从大疆到百亿智驾公司 CEO 的十年之路