过去一到两年,无论是在美国还是中国,自动驾驶领域都出现了一些比较明显的质变迹象。
2021年之前,我们处于“古典智能驾驶时代”。当时技术框架最大的特征就是高度模块化:我们将自动驾驶所需的所有信息,拆解为一个个相互独立的子模块。比如,道路拓扑结构、红绿灯信息依赖高精地图获取先验信息;对物体的识别和距离测算依赖多传感器融合;规划和决策则依靠决策树、状态机等经典算法完成。
从2022年开始,在北美头部公司的带动下,行业的范式发生了剧变。感知端涌现出一系列大家耳熟能详的新名词,比如BEV(鸟瞰图)、Transformer、占据网络(Occupancy Network) 等,它们都在这一时期逐渐成型并成为行业共识。这一阶段模型化比例开始提升,模块之间逐渐融合。同时,国内也逐步探索出“轻图”甚至“无图”的技术路线,逐渐出现了“全国都能开”的能力扩展。
在度过摸索阶段后,2024-2025年,中美头部玩家又迎来了更激进的一轮升级。这一轮变化的关键在于:不再区分传统意义上的功能模块,而是将传感器和导航信息作为统一输入,通过一个模型直接输出车辆的控制信号,也就是大家现在都在谈的“端到端”架构。如果用简单的趋势来概括,就是两个方向:一是模块在减少,二是模型占比在不断提升。

从用户体验角度来看,这一轮技术变化带来的感受也比较明显。一方面是“能开”的范围不断扩大。从早期依赖高精地图的核心城市路段,到“全国都能开”,再到现在的“有路就能开”,甚至包括一些没有车道线的乡间道路。另一方面是“好不好开”的变化。随着模型能力提升,系统的拟人性、流畅性和泛化能力都有明显改善。过去依赖大量人工规则和补丁的方式,客观上限制了模型迭代速度。进入模型化时代之后,对失效场景(bad case)的处理效率明显提高。
从技术路径上看,自动驾驶并不是一开始就采用“端到端”模式,而是在原有成熟架构基础上逐步演进。最近一两年,我们开始看到新架构对旧架构的全面超越。传统分模块体系的主要问题包括:信息在模块间传递过程中会丢失、系统延时较高、整体体验存在割裂感,以及长期迭代上限相对较低。而“端到端”模型实现了全局信息的无损传递,其系统帧率高且稳定。我们可以用手机屏幕来类比:传统架构就像会掉帧的 60Hz 手机,而“端到端”由于是一个整体模型,不存在任务间计算资源的“左右打架”,它能提供一种永远不掉帧的120Hz 满帧体验。
行业常说“上半场电动化,下半场智能化”,从最新数据来看,这个叙事确实正在兑现。在电动化浪潮爆发两三年后,从 2024 年下半年起,高速 NOA 的配套与渗透率开始快速提升;而从 2025 年下半年开始,城区智驾接力爆发。与此同时,这一轮技术进步还带来了“下沉”和“平权”的趋势。随着软硬件成本的下降,20万元以下的主流市场也开始具备较好的智能驾驶体验。

进入大模型时代之后,行业中一个被反复提及的概念是“数据闭环”。从表面看,自动驾驶的核心要素似乎可以概括为三点:算力、数据和模型。仿佛只要备齐这三点,研发“飞轮”就能自动转起来。但实际上,模型只是最终露出水面的“冰山一角”,或许是赢得掌声的那部分。而真正决定竞争胜负的,是潜伏在水平面下的体系能力。
如果把数据闭环拆开,会发现中间布满了“堵点”和“坑”。
首先是数据的触发和回传。车辆在运行过程中,哪些数据需要被记录和回传?例如一次接管,是系统判定失误,还是驾驶者主动行为?这需要较高程度的自动化识别能力;其次是问题的定位。回传的数据属于哪一类问题,发生在哪个模块,需要能够准确归因。
再往后是数据清洗和标注。相比数字AI有高质量的互联网语料,真实世界的数据往往噪声更大、分布极其发散且多样化。这些数据需要经历3-4轮的自动化筛选、清洗和标注之后,才能真正“投喂”给大模型进行迭代。
在此基础上,还涉及数据配方设计、模型训练、仿真测试以及线上验证。最后,还需要将云端的大参数模型,部署到车端算力受限的环境下进行实测,只有跑通这一系列环节,模型才算完整进行了一轮迭代。
过去一年,行业发生了巨大的变化。很多原先资源禀赋较少的玩家,在体验上完成了弯道超车,跃居第一梯队;而一些原本领先的玩家,却因固步自封而停滞不前。随着这一轮技术质变的发生,整个行业的体验、口碑和技术位次正在重新洗牌。这背后反映的是,竞争已不再只是算法本身,而是整体体系能力的比拼,包括技术细节把控、人才匹配及数据闭环的自动化水平等。我们调研中也有体会,行业信息与方法论其实并不稀缺,真正拉开差距的,是这些方法在从宣传口径到实际落地过程中,各个环节的“折损”程度。
大家容易对“端到端”算法产生一种滤镜,但正如 Momenta 创始人所言:算法模仿并不难,难的是你的系统、组织与人才积累能否支持这套体系的搭建。 在传统规则时代,企业可以靠人才和知识的扩散快速追赶。但在大模型时代,竞争变成了更为复杂的体系化博弈。
这个体系可能有五六个关键环节。最终的胜出者,一定是每个环节都具备行业 TOP3的能力,并最终通过能力的累积获得体系化的进步。 新技术给了后发者机会,也给了先发者挑战。去掉技术滤镜,行业竞争最终回归到的还是公司组织能力的挑战。
对于这一轮技术进步,我们整体保持绝对乐观态度。新的大模型架构在统一性、低延时、信息利用效率以及拟人化体验上的优势是比较明确的。
如果从“Scaling”(规模效应)的角度来看,目前车端还只是刚刚开始。无论是可用数据的规模、车端算力的上限,还是系统帧率,都还有比较大的提升空间。举一个相对直观的指标,当前国内头部企业的系统帧率大致在10Hz左右,而北美领先玩家已经可以做到30Hz甚至更高。帧率的提升,本质上会带来决策更连续、控制更平滑的体验提升。已经有头部企业明确提出,2027年产品车端芯片的算力有望达到当前的5–10倍。
从这个角度看,新架构对老技术架构的优越性,是后者通过任何方式都无法弥补的断代优势。而从发展阶段来看,这一轮技术与体验的进步曲线还远未走到终局。另一方面,我们也需要相对冷静地看待自动驾驶本身的复杂性和特殊性。行业的进步不会像最乐观时预期的那样“每个月翻一倍”,过程中会遇到各种难点和挑战,进度的非线性和不可预期性也一定是客观存在的。
从一些头部企业的实际测试数据来看,这种“非线性”也非常明显。表面上看,全程无接管的比例从95%到99%,是4%的进步,实际上是接管比例从5%下降到1%,相当于安全性提升了4倍。
但即便是99%也依然远远不够,和大家日常使用豆包、Deepseek不同,在虚拟世界中,模型偶尔“犯蠢”或出现“神鬼二象性”,用户可以一笑而过。但在物理世界,人类对智驾错误的容忍程度要严苛得多。当我们以基础设施的眼光审视 L4 终局,会发现实现“足够安全”的可靠性,依然是一个极其巨大的挑战。
也正因为当前模型远未完美,部分企业已经开始探索新一轮技术升级,比如目前行业内讨论比较多的VLA(视觉-语言-动作模型)和世界模型。VLA模型是希望能更多地引入语言能力。在现有的端到端架构中,语言已经有所引入,只是权重较低,主要承担多模态交互、文字指示牌识别,以及为“黑盒”系统提供一定的可解释性:让系统在规控输出时,能同步解释为什么变道或压线。而更高阶的目标,是借助语言能力实现复杂场景下更强的理解与推理能力。
开车这件事表面上并不复杂,但人类之所以能够较快学会开车,并不是从零开始学习“驾驶”这项孤立的技能,而是在此之前,我们已经对物理世界的运行规律、环境变化和行为逻辑有了大量基础认知。开车只是把这些通用理解投射到一个具体场景中。相比之下,当前自动驾驶模型在这类泛化理解和场景推理能力上仍然有限,这也是行业希望通过引入语言能力继续突破的原因。
世界模型本质上是想实现终极的数据闭环,当前的自动化迭代有两个绕不开的瓶颈。第一个是有效数据的衰减,模型性能越高,能获得的有效数据就越少,当性能从99%提升到99.9%,有价值的边际数据会从1%快速萎缩到0.1%,这是所有模型都面临的困境;第二个是验证成本的指数级上升,当模型已经足够优秀时,实车路测的时间和车辆成本会变得高不可攀。世界模型可以基于真实场景,自主泛化出不同天气、地形和动态对象的无尽训练素材,并实现算法推出后的线上自动化仿真与闭环评估。
如果从相对晦涩的技术原理回到对行业的展望,我们认为在确定性的技术趋势下,有三个维度的投资与增长机会值得关注。
第一是技术普惠化带来的增量红利。这一轮技术升级实际上降低了软硬件的入门门槛,许多定位经济型的车企,只需投入不超过5%的成本,就能实现城区NOA。这也给了中腰部车企通过与主机厂合作实现“弯道超车”的机会。
第二是供应链与产品收敛下的品牌重塑。当马力、空间和豪华配置在国内市场逐渐失效,空间和配置不再能形成壁垒时,如何重塑高端品牌的心智溢价就成了核心抓手。这一轮技术的洗牌期,恰恰是重新树立C端品牌心智、打造差异化溢价的窗口期。
第三是L4的规模经济化。从无人配送到矿卡,再到Robotaxi,L4的应用场景正在快速泛化。过去L4的痛点在于扩张的“规模不经济”,扩张的边际成本比较高,导致生意逻辑讲不通。而这一轮技术突破,让我们看到了一条能够到达体验彼岸、真正实现规模经济化的路径。
风险提示:本内容仅代表受访者于受访当时的分析、推测与判断,所依据信息和资料来源于公开渠道,不保证其准确性、充足性或完整性,相关信息仅供参考,不构成广告、销售要约,或交易任何证券、基金或投资产品的建议。本内容中引用的任何实体、品牌、商品等仅作为研究分析对象使用,不代表受访者及其所在机构的投资实例。市场有风险,投资需谨慎。
版权声明:本文版权属于上海高毅资产管理合伙企业(有限合伙)(简称“高毅资产”),未经高毅资产授权,任何机构和个人请勿以任何形式发表、转载、改编、摘录、引用。如转载使用,请与原创方微信订阅号“高毅资产管理”(ID: gyzcgl)联系,请注明来源及作者、请保留文章内容完整性、在标题及内容中请勿以任何形式曲解原意;如引用、改编、转述、分析等,请勿以任何形式曲解原意。