最近准备写一个自动驾驶的科普系列文。这是第一篇。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
人工智能有三大基石:算力、算法、数据。三者缺一不可,且必须互相配合、彼此驱动,才能形成所谓的”飞轮效应”——数据喂给算法,算法消耗算力进行训练,训练后的模型又装回车上应用筛选更多数据,循环往复,越转越快。智能驾驶,本质上就是这场飞轮效应在汽车上的落地。
一、智能驾驶如何实现?
当前主流的智能驾驶系统,运行在一个“车端—云端—车端”的闭环里。你可以把它理解为一个不断自我进化的数字生命体。
第一步,车端采集。装有智驾系统的车辆在路上行驶时,摄像头、雷达等传感器会实时记录周围环境——前方有没有车、行人从哪边走来、红绿灯是什么颜色、路面标线是否清晰。这些原始数据就像驾驶员的眼睛和耳朵捕捉到的信息,被源源不断地传回车企的数据中心。
第二步,云端训练。海量驾驶数据在云端超级计算机上进行”消化”。工程师用这些数据训练一个巨大的神经网络模型,让它学会”看懂”路况、“判断”危险、“决定”怎么开。这个过程需要消耗惊人的算力——相当于让模型在虚拟世界里”开”上几亿公里,从中总结经验、纠正错误。训练完成后,模型被蒸馏压缩打包成软件更新,通过OTA推送到每一辆车上。
第三步,车端执行。车辆收到更新后的模型,在本地运行。传感器输入实时数据,模型在毫秒级时间内完成感知(识别周围有什么)、规划(决定走哪条路、什么速度)、控制(具体打多少方向、踩多少油门)三个环节,输出驾驶指令。
车辆在路上的每一次行驶,又会生成新的数据,通过触发回传机制,把模型难以应对的特殊路况下特定数据传回云端继续训练如何应对。如此循环,系统越开越”聪明”。
二、端到端为什么重要?
1. 什么是端到端?
“端到端”(End-to-End)是一种神经网络训练范式。通俗地说,就是用一个统一的深度神经网络,直接从传感器的原始输入(比如摄像头画面)映射到车辆的最终控制输出(方向盘转角、油门刹车),中间不再拆分独立的子模块。
在端到端架构下,感知、预测、规划、控制这些环节不再由各自独立的算法分段处理,而是被压缩进一个统一的”黑盒”模型中。模型自己学会从像素到动作的全部映射关系,人类工程师不再需要手写”如果遇到红灯就停车”这样的显式规则。
2. 端到端之前的智驾是如何的?
在端到端成为主流之前,智能驾驶系统采用的是模块化架构。整个驾驶任务被像流水线一样切分成若干独立的”工位”:
•感知模块负责”看”——识别车辆、行人、车道线、交通标志;
•预测模块负责”猜”——判断其他车辆接下来会怎么动;
•规划模块负责”想”——根据感知和预测结果,规划出一条安全可行的行驶路径;
•控制模块负责”做”——把规划好的路径转化为具体的方向盘、油门、刹车指令。
每个模块由不同的团队开发,各自训练、各自优化,最后像搭积木一样拼接在一起。模块之间通过定义好的接口传递信息,比如感知模块输出”前方50米有一辆货车,速度60km/h”,规划模块接收后据此决策。
这套架构的优势是可解释性强——哪个环节出错,很容易定位。但它的致命弱点也正源于此:模块之间的信息传递是”有损”的,每个模块只把自己认为重要的信息传给下游,大量细节被过滤掉了。更关键的是,每个模块都在追求自己的局部最优,而非全局最优。感知模块追求识别准确率,规划模块追求路径平滑度,但它们的目标并不完全一致,拼接起来后,整体驾驶表现往往不是最好的。
3. 端到端的重要性
端到端的核心价值,可以用一道简单的数学题来说明。
100 的平方等于 10000。但如果把 100 拆成 10 份,每份 10,分别平方后再相加,结果是 10×10² = 1000。同样是 100,整体平方和分开平方之间差了 9000。漏掉了什么?
答案是:交叉项。数学上,(a+b)² = a² + b² + 2ab。你把一个整体拆开,分别求平方再相加,所有两两之间的”交叉乘积”都被丢掉了。
这个比喻恰好对应模块化架构与端到端架构的根本差异。模块化训练就像”分开平方”——每个模块独立优化,丢失了模块之间的协同效应和全局关联。端到端训练则像”整体平方”——所有参数在一个统一的优化目标下联合训练,保留了那些模块间交互才能产生的”交叉项”,从而逼近全局最优。
具体到智能驾驶,这意味着端到端模型能够发现那些人类工程师难以显式编码的驾驶技巧。比如,人类老司机超车时会同时观察前车的姿态、旁边车道的空隙、后方来车的速度,这些信息的综合判断很难拆分成独立的规则写进代码,但端到端模型可以通过海量数据自己学会这种”感觉”。
特斯拉 FSD V12 的问世是端到端路线的里程碑——它用一个神经网络取代了 30 多万行显式 C++ 代码,行驶逻辑变得更加拟人化。 随后的 V14 版本更进一步,模型参数量达到 V13 的 10 倍,用10亿量级参数统一了 Robotaxi 与量产车的架构,C++ 代码精简至仅 2000 多行,却能修复 95% 的犹豫变道和刹车问题。
端到端核心就是大模型。大模型训练涌现智能,这是2022年之后人工智能最重大的共识。因此美国对中国高端芯片的限制就是阻止中国获得高算力集群卡用于大模型开发训练。
智能驾驶端到端庞大参数量的模型训练需要天量的云端算力。特斯拉自研的 Dojo 超级计算平台云端算力已达 100 EFLOPS(每秒百亿亿次浮点运算),用于智驾训练算力达到85 EFLOPS。2025 年预计储备累计 8.5 万颗英伟达 H100 GPU。 对于国内厂商而言,即使攻克了算法问题,拥有优秀的端到端大模型,云端算力也是最难跨越的硬约束——不是买不起芯片,而是很难买到。小鹏的云端算力规模为 10 EFLOPS, 虽然已属国内领先,但与特斯拉仍有数量级差距。在美国加强制裁后的比亚迪等厂商要扩大云端算力则更显艰难。华为凭借自己独特的优势将云端算力扩充到60 EFLOPS,是国内唯一在算力上可匹敌特斯拉的存在。
对比维度 | 特斯拉 FSD Sentient-Leap 世界大模型 V14.3 | 华为乾崑 ADS 5.0 盘古智驾大模型 WEWA 2.0 | 小鹏 VLA 2.0 物理世界基座大模型(XNGP) | 比亚迪璇玑天神之眼 DiPilot 云端物理 AI 大模型 | 地平线 HoloBrainVLA+AlphaDrive 智驾大模型 |
模型名称 | FSD Sentient-Leap 全域端到端世界大模型 V14.3 | 盘古自动驾驶垂直大模型(WEWA 2.0 世界引擎) | 小鹏 VLA 2.0 物理世界基座大模型(72B 完整版) | 璇玑天神之眼 DiPilot 云端物理 AI 大模型 | HoloBrain VLA 感知基座 + AlphaDrive 规划强化大模型 |
参数量 | 稠密 30B;端侧蒸馏轻量化 6B | MoE 总参 80B,单次推理激活 18B;基于通用盘古 505B 底座微调 | 云端完整版 72B;车端蒸馏轻量化 7B | 稠密 24B;接入 DeepSeek R1 做上层交通语义增强 | 感知基座 13B + 规划子模型 2B+HoloMotion 运动模型 4B |
模型架构 | 单阶段全域端到端 Transformer,纯视觉输入直接输出车辆控制;时空时序编码器 + 神经世界仿真预测头,原生适配 HW4.0 | MoE 稀疏多智能体车云双世界模型架构;多传感器融合 Transformer + 博弈决策头,无高精地图原生设计 | VLA 视觉 - 语言 - 动作多模态端到端 Transformer;搭载 CoT 思维链时序推理模块,支持跨具身智能迁移 | 璇玑 2.0 中央一体化 BEV 时序 Transformer;车云分层蒸馏架构,多传感器异构融合 + 通用大模型常识增强 | BPU 纳什架构定制化两段式 Transformer;VLA 感知基座 + GRPO 强化规划头,内置 3D 高斯场景重建模块 |
训练机制 | 1. 全球车队影子模式行为克隆 + 长尾危险场景强化学习2. Dojo 神经模拟器闭环仿真自动挖掘极端路况3. 全球联邦分布式学习,区域数据本地训练后全局聚合4. 大模型逐层蒸馏适配历代车载硬件 | 1. 海量真实路况离线预训练 + 云端多智能体博弈强化学习2. WEWA 引擎生成千倍级极限仿真场景做安全训练3. 国内乡镇、山区路况定向微调 + 交通规则对齐4. 昇腾软硬件联合蒸馏,满足 L3 安全冗余约束收敛训练 | 1. 多模态数据 SFT 监督微调 + 思维链 CoT 强化学习2. 车端驾驶片段回流 + 仿真场景泛化扩充数据集3. 云端充分预训练后蒸馏适配自研图灵车载芯片4. 跨区域迁移学习,快速适配全国各省市路况 | 1. 本土化密集非机动车路况监督训练 + 对抗强化学习2. 一套模型分级蒸馏适配高中低全系车型硬件3. 交警手势、非常规路况语义专项微调4. 雨雪、乡村非铺装道路样本增强训练 | 1. 通用驾驶场景基座预训练 + GRPO 分组奖励强化学习2. 小样本训练框架,仅需 20% 标注数据即可达到传统 SFT 性能3. 两阶段训练:先感知、再高层规划迭代优化4. 面向车企提供模型微调、轻量化部署一站式训练工具链 |
数据规模 | 1. 全球累计智驾行驶里程 120 亿公里2. 年新增训练视频帧 50 亿 +,日均仿真场景 10 亿片段3. 覆盖全球多国法规、全气象长尾场景 | 1. 合作车企累计智驾里程 114 亿公里(国内 87.6 亿公里)2. 日均 170 万 + 车辆数据回流,乡镇无标线道路样本覆盖率国内第一3. 云端等效仿真训练里程 6 亿公里 | 1. 训练视频 Clip 近 1 亿条,数据集总容量 50PB2. 单轮模型迭代消耗 4 万亿 Tokens,覆盖全国 3000 + 城市3. 仿真场景等效人类司机 6.5 万年极限路况 | 1. 全系累计行驶里程 513 亿公里(国内车企最大智驾数据集)2. 日均新增行驶数据 1.8 亿公里,非机动车密集场景样本量行业领先3. 海量雨雪、山区、乡村本土化路况样本库 | 1. 合作车企累计搭载车型路测里程 42 亿公里2. 12 万 + 标准化 3 秒驾驶标注片段,依托上百家车企实现多区域数据共享3. 开源 MetaAD 自动驾驶数据集持续迭代扩充 |
算力基础设施(仅智驾训练专用,单位:EFLOPS) | 85 EFLOPS1. 硬件:Dojo 自研 D1 芯片集群 + H100 GPU 混合架构,等效约 21500 张 H1002. 软件:自研 MLIR 分布式训练框架,算力常驻利用率 70%~90%3. 部署:全球多区域算力中心就近处理车队数据,车云模型闭环迭代 | 60 EFLOPS(2026 年 4 月官方发布会披露)1. 硬件:昇腾 910B NPU 万卡级集群,CloudMatrix384 超节点互联2. 软件:鲲鹏 + 昇腾全栈自研训练底座,算力利用率 50%~70%3. 部署:国内多节点合规集群,数据不出境,定向适配中国路况训练 | 10 EFLOPS(肇庆扶摇智算中心官方最新披露)1. 硬件:H100/A100 GPU 集群,国内车企智驾专用算力利用率最高(90%~98%)2. 软件:自研图灵分布式编译器,训练带宽提升 15 倍3. 部署:芯片 - 模型联合调度,支撑 VLA 大模型 5 天一轮迭代 | 2.3 EFLOPS(2026 年 5 月智能化发布会核验口径)1. 硬件:自建 GPU 集群 + 公有云弹性扩容,深度适配璇玑 A3 芯片训练算子2. 软件:自动化数据清洗标注流水线,支持多档位模型同源训练3. 部署:云边端三级算力调度,匹配日均 1.8 亿公里海量数据回流 | 2.1 EFLOPS1. 硬件:自建 + 公有云混合英伟达 GPU 算力池,面向第三方车企开放训练服务2. 软件:自研 Horizon-LM 内存卸载训练框架,训练吞吐量提升 12.2 倍3. 部署:轻量化模型专属算力调度,降低中小车企训练标注成本 |
核心特点 | 1. 全球唯一大规模量产纯视觉端到端方案,FSD 与 Optimus 人形机器人模型技术复用2. 全球最强数据飞轮,极端长尾路况泛化能力顶尖3. 单模型统一高速、城区、泊车全场景,OTA 全域持续进化4. 海外商业化落地成熟,国内已完成合规准入 | 1. 多激光雷达多传感器融合,L3 国内首批商用落地,安全冗余行业领先2. WEWA 世界仿真引擎训练效率突出,事故碰撞风险降低 50%3. 全栈国产软硬件,数据安全优势显著,面向全行业车企开放授权4. 彻底摆脱高精地图依赖,城乡全域道路覆盖能力强 | 1. 全球首个量产落地 VLA 多模态智驾基座大模型,具备交通常识链式推理能力2. 城区拥堵路段通行效率优异,激进防御型驾驶策略3. 模型可向飞行汽车、人形机器人做技术迁移4. 自研图灵芯片与大模型深度协同,端侧落地迭代速度行业领先 | 1. 普惠智驾路线,高阶智驾下放到 7 万级入门车型2. 国内最大保有量车队,本土化非机动车、城乡路况适配最优3. 璇玑 A3 车规芯片软硬协同优化,算力利用率表现突出4. 整车三域(智驾 / 座舱 / 动力)一体化协同决策控制 | 1. 国内头部第三方智驾方案商,轻量化、低成本适配全品类车企2. 自研 GRPO 小样本强化学习框架,大幅降低车企数据标注投入3. BPU 芯片功耗控制优异,燃油车、入门级电动车适配友好4. 基座模型 + 训练工具链开源,产业生态开放度最高 |
注:FSD V15(预计 2026 年底-2027 年初)将明确采用 100 亿参数(10B)模型,FSD V15参数当在10-100亿之间。
4. 端到端的其他难点
端到端并非万能药,它也带来了新的挑战。
第一,黑箱问题。模块化架构出错时,工程师可以逐层排查——是感知漏检了行人,还是规划选择了错误路径?但端到端模型的决策过程高度融合,几乎无法解释”为什么在这个时刻做出了这个转向决定”。这种不可解释性对安全至上的汽车行业是巨大的监管和信任障碍。
第二,数据饥渴。端到端模型需要海量的高质量驾驶视频数据进行训练。特斯拉拥有全球超过 500 万辆车的数据回传网络, 这是其他厂商短期内难以复制的优势。
第三,调试困难。模块化系统可以通过修改规则代码快速修复特定场景的问题;端到端模型出了问题,往往需要重新训练整个网络,迭代周期更长。
三、特斯拉智驾牛在什么地方?
说完了端到端,让我们把目光投向这条路线最成功的践行者——特斯拉。
1. 超强算力驱动的超大训练模型
特斯拉智驾的核心竞争力,首先来自其在 AI 基础设施上的压倒性投入。
在云端,特斯拉自研的 Dojo 超级计算平台是其算法迭代的”发动机”。Dojo 采用专为 AI 训练优化的 ASIC 芯片路线,Dojo 2 单训练瓦片算力可达 1000 TOPS,高于英伟达 B200 单芯片的 900 TOPS,瓦片间带宽更是达到 36TB/s。 2025 年,Dojo 集群总算力达到 100 EFLOPS,为 FSD 端到端模型提供了充沛的训练火力。
在模型端,FSD V14 的参数量已达到十亿级别,巨量参数量意味着模型能够理解更复杂的环境信息、处理更罕见的 corner case(边角场景)。用马斯克的话说,FSD V14 已经让他”感受到从 L2 到 L4 的明确路径”。
2. 超强抽象能力:云端大模型,车端小模型
任何厂商都无法将数十亿参数的大模型直接塞进车里——那需要车端配备天价芯片,功耗和散热都是无法解决的问题。智驾厂商需要蒸馏(Distillation):在云端用超级算力训练一个参数量巨大、能力全面的”老师模型”,然后把这个大模型的知识和能力”提炼”出来,转移给一个体积更小、运行更快的”学生模型”,部署在车端芯片上。这样一来,车端模型虽然”瘦”了很多,但依然继承了云端大模型的核心驾驶能力。
特斯拉的蒸馏非常大胆,体现出其对算法掌控的强大自信。其HW4/AI4 芯片算力约为 500 TOPS, 远低于国内一些厂商堆料的双 Orin-X(508 TOPS)或蔚来神玑 NX9031(1000+ TOPS),这颗算力并不高的车端芯片大部分算力并非分配给深度推理,而是留给感知数据的实时处理。但 FSD 的实际驾驶表现却令人惊艳。
国内厂商也在走类似路线。文远知行最新发布的 WRD 3.0 端到端方案,搭载在广汽埃安 N60 等车型上,仅凭 200 TOPS的单颗高通骁龙平台算力,就实现了城市、高速、泊车全场景高阶智驾能力,官方宣称达到了”2000 TOPS 算力效果”。 这说明,端侧算力在合理的模型蒸馏和架构设计下,可以发挥出惊人的效率。
3. 统一车型、纯视觉,数据划一
特斯拉还有一个被严重低估的优势:数据一致性。
全球所有特斯拉车辆,从 Model 3 到 Model Y,从 HW3 到 HW4,传感器的类型、数量、安装位置、数据格式都是统一或高度一致的。更关键的是,特斯拉坚持纯视觉路线——只用摄像头,不用激光雷达。这意味着所有回传的训练数据都是同一种”语言”(图像像素),不需要处理不同传感器之间的信号融合、时序对齐、噪声过滤等复杂问题。
这种一致性带来了两个结果:一是数据可以自动化的流水线处理,从采集、清洗、标注到训练,几乎不需要人工干预;二是模型的泛化能力更强——在美国训练出的模型,拿到中国来也能较快适配,因为数据的底层结构是一样的。
反观国内车企,车型众多、传感器配置各异,有的用激光雷达+视觉融合,有的用纯视觉,有的用 4D 毫米波雷达,数据格式千差万别。这导致数据难以统一利用,训练效率大打折扣。
4. 车端智驾硬件成本低,方便推行智驾按使用收费
纯视觉路线和高效的模型蒸馏,最终都指向同一个结果:特斯拉的车端智驾硬件成本极低。
HW4 时代的整套车端感知硬件(12 颗 500 万像素摄像头 + 1 颗 4D 毫米波雷达),BOM 成本约为 4000-4200 元人民币。相比之下,搭载激光雷达的智驾方案,单颗固态激光雷达的前装采购价就在2000-3000 元,一套完整方案硬件成本起步 1.2 万元。 特斯拉的硬件成本不到多类传感器融合方案的二分之一。
成本低,意味着特斯拉可以全系车型预埋智驾硬件,不需要消费者额外付费选装。消费者购买任何一款特斯拉,出厂时就已经具备了支持 FSD 的硬件能力。后续是否开通智驾功能,只是一道软件开关的事。
这种商业模式的优越性在于,特斯拉可以把 FSD 当作一项软件订阅服务来销售——美国市场 99 美元/月,中国市场买断价 6.4 万元。 截至 2024 年第三季度,已有超过 50 万用户订阅 FSD,累计收入达 15 亿美元。软件一旦开发完成,边际成本几乎为零,利润率远高于卖车本身。这是特斯拉的终极野心:从一家汽车制造公司,转型为一家靠软件和服务赚钱的公司。
结语
智能驾驶的竞争,表面看是算法的比拼,底层其实是数据、算力、算法、工程化能力的综合较量。端到端架构的出现,把这场竞赛推向了一个新的维度——它要求厂商同时拥有海量的真实道路数据、强大的云端训练集群、以及把大模型”压缩”进车端的蒸馏技术。
特斯拉之所以走在前面,不是因为它在某一个单项上无人能敌,而是因为它在数据一致性、云端算力、模型蒸馏、硬件成本控制这几个维度上形成了一个完整的闭环。这个闭环一旦转起来,就会像飞轮一样越转越快,后来者想追赶,在智驾达到L4前这段难度会越来越大(L4后特斯拉智驾能力进入稳态,后进的厂商追赶速度加快)。
但这并不意味着其他厂商没有机会。文远知行用 200 TOPS 算力实现城市 NOA 的案例已经证明,端到端架构下的算力使用效率还有很大优化空间。国内厂商在本土场景理解、数据丰富度、供应链整合上各有优势。下一篇文章,我们将把目光转回国内,看看小鹏、华为、比亚迪、地平线们各自走了怎样的技术路线,它们的端到端方案与特斯拉有何异同,以及”智驾平权”这个时代命题意味着什么。