COMPUTING POWER FOR AUTONOMY
一块数据的算力之旅
───
从数据中心到车载芯片,从 CUDA 到出口管制一块数据穿越三座算力站点,抵达一个驾驶决策
很多人知道"自动驾驶需要算力"。但很少有人追问:算力到底花在哪里?谁在提供这些算力?中国能不能用自己的芯片跑起来?本文跟着一块数据,走完它的算力之旅。
PROLOGUE
0.1 秒
一辆 Robotaxi 在晚高峰十字路口的算力账单
晚高峰。一辆 Robotaxi 在十字路口等待左转。
对面车道,一辆电动车逆行穿出。右侧,公交车打了转向灯开始并线。后方,有车闪灯催促。正前方人行横道上,一位老人推着买菜车,犹豫要不要过马路。
这辆车有一秒钟做决定。
在这一秒里,8 颗 800 万像素摄像头以每秒 30 帧的速度向中央计算平台灌注数据——大约每秒 4 GB 的原始像素流。激光雷达在向车顶的旋转镜发射激光脉冲,毫米波雷达在发 FMCW 啁啾信号。三种传感器像三根消防水管,同时对着一个茶杯喷。
全部数据必须在 100 毫秒之内完成——感知(路上有什么)、预测(它们接下来会干什么)、规划(我该走哪条路)、控制(方向盘转多少度、刹车踩多深)。然后下一帧数据已经到了。
这一个闭环,需要大约 1500 万亿次运算。也就是 1500 TOPS。
作为对比:你口袋里那台去年刚买的旗舰手机,NPU 算力大约 35 TOPS——而且它跑的是美颜滤镜和语音助手,不是在帮一个两吨重的机器在晚高峰左转。
但这不是最惊人的部分。最惊人的是——这个 1500 TOPS,只是推理。在这辆车出厂之前,让它"学会"识别逆行电动车的那个过程,是训练。训练需要的算力,是推理的几万倍。
JOURNEY BEGINS
跟着一块数据,走完它的算力之旅
STATION 01 · TRAINING
第一站 · 训练站
几千块 GPU,炼一块"知识钢"
"算力"不是一个数
在聊训练之前,我们先谈一个更容易被误解的概念。
很多人看自动驾驶芯片对比,习惯比一个数字:254 TOPS、560 TOPS、2000 TOPS。数字越大越厉害——这个直觉不能说错,但它漏掉了一半真相。
TOPS 描述的是芯片在理想条件下能达到的峰值——就像仪表盘上写的最高时速。你在晚高峰的十字路口不可能开到 260 公里/小时。
自动驾驶算法实际能达到标称算力的 40% 到 60%,已是非常优秀的工程水平。
更关键的是:同样的 TOPS 数,跑在不同的任务上,效率天差地别。传统 CNN 卷积网络在 TOPS 利用率上能做到 80% 以上。但自动驾驶正在快速转向 Transformer 架构,而 Transformer 的自注意力机制在传统芯片上效率极低——如果没有专门的硬件加速单元,20% 的利用率都算幸运。
这就是为什么新一代车载芯片(NVIDIA Thor、地平线 J6P)都专门为 Transformer 做了硬件加速。不是 TOPS 数涨了,是同样的 TOPS 能做的事变多了。
所谓算力,本质不是一颗芯片跑多快——而是在给定功耗和延迟下,能对正确的任务做多少次正确的运算。
训练和推理,不是一回事
你可能会觉得:一辆车认出行人、识别红绿灯、判断前车会不会突然变道——这些"智能"是车在路上跑出来的。不是的。这些能力是在车出厂之前,在数据中心里"炼"出来的。
想象一个高三学生。他刷了三年题——真题卷、模拟卷、错题本、每周一测——这是训练。高考那天,他坐在考场里,不看任何资料,拿到一张从没见过的卷子,在限定时间内写完答案——这是推理。训练和推理的算力需求,差了三到四个数量级。
训练为什么这么贵?因为它的计算模式是"反向传播":模型做一次预测 → 对比正确答案 → 把误差一层一层反向传回去 → 调整每个参数的权重。这个过程的每一步都需要把所有参数同时放在 GPU 内存里。而推理不需要反向传播——参数已经固定了,数据进来,跑一次前向传播,结果出去。就像高考生不需要在考场上顺便修订教科书。
自动驾驶的智能,不是在车里长出来的,而是在数据中心里炼出来的。
那数据中心里,用的是谁的芯片?
训练芯片:NVIDIA 的江山,和两股正在靠近的力量
一块 NVIDIA H100 训练芯片,算力约 2000 TFLOPS(FP16),80 GB HBM3 显存,功耗 700 瓦,单块卡售价约 3 万美元。训练一个中等规模的 E2E 自动驾驶模型,通常需要几百到几千块这样的卡协同工作。
训练芯片的市场格局,可以用一句话概括:NVIDIA 是绝对霸主,Google 在自己家里用,华为在追。
| | | |
|---|
| H100: ~2000 TFLOPSB200: ~4500 TFLOPS | | |
| | | |
| | | |
| | | |
NVIDIA 统治训练市场靠的不只是芯片本身——更是一个叫 CUDA 的东西。过去 18 年里,全球几百万 AI 开发者习惯了用 PyTorch 写代码、底层调用 CUDA 算子、在 NVIDIA GPU 上跑训练。一个 2025 年后毕业的 AI 博士生,从写第一个神经网络的那天起,就没离开过 CUDA 生态。他不会觉得这是"NVIDIA 的生态",他只觉得"AI 本来就该这么写"。这就是任何竞争对手都绕不开的墙。
Google 的办法是绕过这堵墙——它不卖芯片,只在自己的云上跑。华为走的是第三条路:正面硬刚。昇腾 910C 在 2025 年的地位是:能用了,但离好用还有距离。单卡推理效率在优化后能做到 H100 的 60% 左右,训练场景大概是 40% 到 50%。挑战在于软件——华为自研的 CANN 算子库和 MindSpore 框架,生态规模和成熟度与 CUDA 差了不止一代。
STATION 02
训练做完了。模型被蒸馏、量化、压缩——几百 GB 的知识,要塞进一个功耗不到 60 瓦的铁盒子里。
STATION 02 · INFERENCE
第二站 · 推理站
把数据中心的知识,塞进车里的铁盒子
让我们回到开头那辆在路口左转的 Robotaxi。它的后备箱里,藏着一个比鞋盒稍大的银色铝壳。壳子上没有风扇,只有散热鳍片——被动散热,靠空气自然对流带走热量。铝壳里面,是一颗车载推理芯片。
这颗芯片面临三重约束,每一项都和训练芯片截然相反:
数据中心里一块 H100 功耗 700 瓦,可以上液冷、空调、专线供电。车里不行。车载芯片的散热预算是按"被动散热"来算的——大约 60 瓦。就算是顶级方案上液冷,整块板子也不超过 350 瓦。超过这个数,散热系统本身的体积和重量就会挤压续航和座舱空间。
CONSTRAINT 02
延迟:100 毫秒 = 3 米
训练可以跑几天甚至几周。推理不行——从摄像头曝光到控制指令发出,必须在 100 到 200 毫秒内完成。高速公路上,100 毫秒就是 3 米。延迟超限,不是性能问题,是安全问题。
数据中心里的 GPU 蓝屏了,重启就行。车载芯片蓝屏了,后果可能是人命。ISO 26262 功能安全标准要求车载计算平台通过 ASIL-D 认证——芯片从物理设计阶段就要嵌入安全岛(Safety Island),用独立的电源域和时钟域监控主计算单元。NVIDIA 的上一代 Orin 只做到了 ASIL-C,新一代 Thor 才突破 ASIL-D。
推理芯片的战场:四方角力
2025 年的车载推理芯片市场,四方角力。
NVIDIA
Orin / Thor:仍是统治级的存在
Orin-X 254 TOPS · Thor 1000-2000 TOPS · ASIL-D · 单芯三域融合
上一代 Orin-X 是 2023-2025 年中国高端 ADAS 的标配——蔚来用了 4 颗,理想 2 颗,小鹏 2 颗。新一代 Thor 从手机级 Cortex-A 升级到服务器级 Neoverse V3AE,晶体管从 170 亿跳到 770 亿。最核心的一张牌不是算力,是单芯片上统一跑 ADAS + 座舱 + 泊车三个域。
HORIZON
J6P:中国市场的隐形冠军
560 TOPS · 7nm · 中国 ADAS 市占 32.4% · 累计出货 1000 万+套
中国每三台搭载智能驾驶的新车,就有一台用地平线芯片。核心策略是"在合理算力上做极致软硬协同"——BPU 架构对 Transformer 的利用率远高于通用 GPU。纯 Tier 2 芯片供应商定位,让车企觉得"可控"。
TESLA
FSD / AI5:自研垂直整合的极限实验
AI4 ~720 TOPS · AI5 2000-2500 TOPS (2027) · 3nm · 144 GB 内存
唯一一家从芯片到算法到车队全部自研的公司。可以激进地砍掉传统 ISP,为 E2E 纯视觉模型定制硬件加速单元。一辆特斯拉在没有激光雷达的情况下完成了横跨美国 4500 公里的无接管驾驶——720 TOPS 跑出了 2000 TOPS 的效果。
HUAWEI
MDC:全栈定义者的独特位置
ADS 3.0 ~200 TOPS · 从昇腾芯片到整车集成全栈自研
华为不一定在 TOPS 数字上领先,但除了特斯拉以外唯一完整自研 AI 计算全栈的公司。ADS 3.0 已经证明:在算法和硬件的深度耦合下,不需要堆到 1000 TOPS 也能实现城区 NOA。
STATION 03
推理芯片的选择,看起来是一场公平的竞赛。但有一件事情,让规则被重写了。
STATION 03 · BORDER
第三站 · 边界站
训练和推理之间,画着一道国界线
为什么卡训练,不卡推理?
2022 年 10 月,美国商务部颁布了第一轮高端 AI 芯片对华出口管制。NVIDIA H100 被列入禁运清单。此后的三年里,政策像打摆子一样反复摆动——H100 禁了,H800 也禁了,H20 2025 年 4 月也被禁了(NVIDIA 计了 55 亿美元库存减记),到了 2025 年底特朗普又宣布允许 H200 出口中国。
但这三年反复背后,有一个清晰的逻辑:美国管制的核心是训练芯片,不是推理芯片。
训练能力决定了一个国家能不能"造出"下一代 AI 模型。训练是知识的源头——管住源头,就管住了整个下游。而推理芯片(Orin、Thor)相对宽松——这些芯片部署在车上,不构成"大规模 AI 训练基础设施"。如果美国禁了 Thor,中国车企可以选华为、选地平线——反而是在帮中国芯片公司清场。
这个逻辑导致了一个奇特的现象:同一条产线上下来的芯片,数据中心用的被禁了,车上用的可以买。训练和推理,被一道政治边界劈成了两个世界。
"能用"和"好用"之间,差了一个 CUDA
华为昇腾 910C 在 2025 年的处境,恰好处在"能用"和"好用"的交叉点上。硬件上,差距在缩小。但真正的墙不在硬件上,在软件里。
CUDA 生态有 400-500 万开发者。这些人从大学 AI 课的第一个作业开始就用 PyTorch + CUDA。他们不觉得这是选边——因为他们根本没有选过,NVIDIA 就是 AI 计算的默认设定。
华为的对应方案是 CANN 和 MindSpore。2025 年 8 月,华为宣布 CANN 全量算子开源,联合 60 万开发者共建生态。提供了 CUDA 到 CANN 的自动代码迁移工具,转换成本降低了 60%。但生态的深度不是靠工具追平的——CUDA 积累 18 年,有超过 2000 个高度优化的算子、从 K-12 到博士后的完整教育链条。
华为要填的不是性能差距,是 18 年的开发者时间。这个时间窗口,乐观估计只剩两三年。
一个新入行的 AI 开发者不知道自己正在被 NVIDIA "锁定"——他只是跟着教程装了个 CUDA Toolkit,然后就再也没出来过。
EPILOGUE
收束:算力即边界
L4 的天花板不是你的算法有多好
让我们回到晚高峰十字路口的那辆 Robotaxi。
它做出了正确的决策:减速,让过逆行的电动车,给公交车留出一个车身的距离,在老人的买菜车前平稳停住,两秒后重新起步。
这一串动作的技术含量,值 1500 TOPS 的推理算力。让这 1500 TOPS 成为可能的,是训练阶段几千块 H100 或昇腾 910C 日夜不停地炼了几个月的数据、是模型压缩工程师熬了无数个通宵把那几百 GB 的模型塞进一颗功耗不到 60 瓦的芯片里、是安全工程师提交了几万页认证证据链、是一家公司决定用 Thor 还是地平线还是自研——并且有一道国界线,决定了它能买到谁家的训练卡。
算力不是 TOPS 数字。算力是一根完整的链条——从数据中心到车载芯片,从训练集群到推理加速,从 CUDA 生态到 CANN 开源社区,从政策管制到国产替代。这根链条的任何一环断裂,L4 就只是画在 PPT 上的一个数字。
没有算力,就没有自动驾驶。没有自主可控的算力链路,就没有真正自主的 L4。
HONEST SCORECARD
诚实时间:中国自动驾驶算力的真实进度
不是告诉你"谁赢了",而是告诉你这场长跑有多长
| | |
|---|
| Ascend 910C ~50% H100,可用但不好用 | 3-5 年内追到 80%,但 CUDA 生态差距更难追 |
| | L4 级推理 2027 年前可能需要 Thor 过渡 |
| CANN 开源起步,开发者 ~50 万 vs CUDA 500 万 | |
| | |
| | J6P 在 20 万以下车型中 L2+ 方案性价比领先 |
算力竞赛不是一场短跑——它是一场要在三个维度(性能、生态、政策)同时跑的长跑。而且跑道上每隔几百米就有人在改规则。
能跑完这场长跑的选手,一只手数得过来。