2026年初,一个不太起眼的技术节点正在改变自动驾驶的游戏规则。
小鹏汽车基于基座模型训练出的第二代智驾系统,车辆重刹减少99%、急加速减少98%、顿挫减少89%,复杂小路的平均接管里程提升到约260公里。更重要的是,从高速到城区再到乡间土路,同一套模型架构完成了过去需要多套系统拼凑才能实现的能力。
这背后,是一场始于2024年的技术押注。
缝合怪走到了尽头
过去的L2级辅助驾驶系统就是个缝合怪,本质上是一个"场景拼图"。
高速场景严重依赖高精地图和规则驱动,城区场景通过占用网络、强化学习和大量Corner Case数据训练,园区场景则是多模态融合加低速控制算法。每个场景一套打法,切换时的衔接问题始终无法彻底解决。
这种技术路径的问题在于:能力的上限取决于你能覆盖多少场景,遇到新场景就得重新训练新模块。L2到L4之间的跨越,变成了一个永远填不满的数据黑洞。
传统的解决思路是暴力堆砌:更多运营车辆、更密集的数据采集、更详细的高精地图。但这条路很快就撞到了天花板,边际收益递减得很快。
行业需要一个根本性的范式转变。
基座模型(Foundation Model):在海量多模态数据上预训练的大规模神经网络,具备强泛化能力和迁移学习能力。可以想象成先打好地基,后续盖什么样的房子都变得容易了。
720亿参数背后的逻辑
2024年,小鹏汽车开始建设万卡智算集群,半年后,一个参数规模达到720亿的"世界基座模型"完成训练。
这个数字是当时车端主流VLA模型的35倍,但参数规模不是重点,关键是它具备了链式推理能力,能将推理结果直接转化为行动。
从模型架构上看,这是一个全新的范式:直接由Vision生成Action,去掉了语言转换环节,在物理世界实现了更彻底的端到端。感知、预测、决策、控制在同一个神经网络中耦合回传,不再需要人为切分成多个模块。
Visual Chain of Thought(视觉推理思维链):让AI模型能像人一样"边看边想",在视觉输入的基础上进行多步推理。就像开车时看到前方慢车,会自动思考"要不要变道、哪条车道更合适、现在变道安全吗"这一连串问题。
Visual CoT技术让思维链推理效率提升了32倍,相比传统CoT预测误差降低33%。更重要的是,它让系统具备了场景理解能力,而不只是物体识别能力。
比如遇到前方慢车,系统会自动生成多个方案:激进变道、稳健变道、保持跟随,然后根据其他道路信息推理出最优解执行。这不是简单的if-then规则触发,而是对"前方车速慢,需要通过,但要综合考虑其他车道情况"这个完整情境的理解。
涌现的边界在哪里
更有意思的现象是"涌现"。
系统开始展现出一些从未被明确训练过的能力。比如主动避让救护车,这不是识别到"救护车"这个预设物体后执行避让指令,而是理解了"后方有特种车辆需紧急通行"这一完整场景后,自主生成的决策。
这种能力来自基座模型对物理世界的深度建模。在训练过程中,模型不仅学习了视觉特征和运动控制的映射关系,还学习了物理世界的运行规律:车辆的动力学特性、道路的拓扑结构、交通参与者的行为模式。
为了支撑这种能力,工程化上做了大量联合优化。从模型到软件、从编译器到芯片都进行了深度适配,在输入端实现了token/video压缩来减少带宽与计算负担。指令输出延迟被压缩到80毫秒以内,这对实时性要求极高的自动驾驶来说至关重要。
从2025年11月到2026年2月底短短几个月,基于基座模型的车端系统已经开发了468个版本。高频迭代带来的不只是性能提升,还有功能的快速扩展:无目的地漫游、原地激活NGP等新功能不断涌现。
一个公式的启示
小鹏通用智能中心负责人用一个简洁的公式描述自动驾驶的本质问题:
L4自动驾驶能力 = 模型 × 算力 × 数据 × 本体
这个公式看似简单,实际上道出了基座模型的价值所在:让右边的每个要素都能发挥出最大效能。
物理世界的数据复杂度极高,输入信号是连续的非结构化数据,涉及复杂的真实世界交互。新的车端模型推理Token消耗量,约等于全国数字AI Token日调用量的80倍。基座模型通过预训练建立了对这些数据的统一表征,让后续的特定任务学习变得高效。
算力方面,万卡智算集群不只是堆砌GPU,而是为大规模物理AI训练专门设计的基础设施。模型架构的简化也让车端推理的算力需求更可控。
本体的泛化能力更值得关注。同一个基座模型可以蒸馏出适配不同硬件平台的智能系统:家用车、Robotaxi、人形机器人甚至低空飞行器。这意味着在自动驾驶上验证过的AI能力,可以大规模迁移到其他物理交互场景。
全球范式的悄然转变
值得注意的是,这种技术路径不是孤例。
2025年10月,大洋彼岸的特斯拉也透露了类似的架构转变:FSD正在通过以视频为主的多模态输入进入端到端模型,直接输出控制指令,感知-预测-决策-控制在同一神经网络中完成。他们还开发了"神经世界模拟器",用于根据当前状态与下一步动作生成未来状态,进行端到端模型的性能评估。
东西方的头部玩家,几乎同时完成了相同的技术转向。
这不是巧合,而是技术演进的必然。当打补丁式的场景拓展触及天花板,当L2到L4之间的"空气墙"无法用数据堆砌突破,行业必然会转向更底层的架构革新。
基座模型提供的,不是某个具体场景下的性能提升,而是一种系统性的能力跃迁:从"针对特定场景设计算法"转向"让模型自己学会应对开放世界"。
墙正在消失
自动驾驶的基座模型,正在回答一个比"车能不能自己开"更本质的问题:机器能否真正理解并进入物理世界?
过去,L2和L4被认为是两个完全不同的赛道,用不同的方法、不同的硬件、不同的商业逻辑。L3更是一个尴尬的存在,驾驶责任在车辆和驾驶员之间频繁转移,对硬件、软件、法规都是挑战。
基座模型的出现,让这些人为的分界变得模糊。当模型本身具备了对物理世界的通用理解能力,L2到L4的跨越不再是量变的积累,而是架构范式的一次切换。
更深远的影响在于,这种能力不会止步于汽车。基座模型能输出多模态指令:语音、视觉、动作、行为,这意味着它可以成为一个通用的"物理AI操作系统"。智能座舱、人形机器人、具身智能设备,都可能共享这个底层架构。
2026年初小鹏汽车推送的第二代智驾系统,打破的不只是自动驾驶的"空气墙",而是所有机器与现实世界交互的那道"墙"。
当基座模型学会了物理世界的运行规律,技术的想象空间就不再局限于某个具体应用,而是指向了一个更宏大的命题:让机器真正成为物理世界的参与者,而不只是执行者。