当前位置：首页>自动驾驶>世界模型来袭!传统自动驾驶芯片已然失效

世界模型来袭!传统自动驾驶芯片已然失效

2026-06-01 18:14:47

世界模型来袭!传统自动驾驶芯片已然失效

　　最近几年，车行业有个非常明显的趋势：车企都开始自己做芯片。特斯拉FSD已经迭代到第五代，蔚来有神玑NX9031、小鹏自研图灵AI芯片、理想推出马赫M100，比亚迪、吉利、Momenta也都在自研芯片领域持续投入。

表面看，这一波热潮是车企想要减少对英伟达的依赖，也就是业内常说的“去英伟达化”。但只看到这一点，远远不够。真正的变化，不在供应链，而在自动驾驶模型本身。

　　自动驾驶模型正在快速迭代，从CNN到Transformer，再到现在的DiT架构和世界模型，整套技术范式已经换了赛道。过去适配旧模型的芯片设计逻辑，已经跟不上新一代自动驾驶的需求。这才是车企纷纷下场自研芯片的真实原因。

01自研不是为省钱，核心是掌握技术控制权

　　车企选自研还是外购芯片，看着是商业选择，本质是赌未来的技术路线。芯片研发周期极长，从定方案、做架构，到最终装车量产，一般需要2到4年，海外厂商甚至要3到5年。

　　也就是说，车企现在做芯片，赌的是未来5到8年的技术走向。一旦路线判断错误，芯片要么生命周期大幅缩短，要么直接用不上。车载芯片研发，本身就是一场高风险押注。

　　车企坚持自研，核心原因很简单：车企比外部芯片厂商更清楚，自己几年后要跑什么样的自动驾驶模型。3纳米、5纳米芯片研发成本极高，一次性工程费用加上IP授权，动辄数亿。单靠芯片出货，基本不可能赚钱。但这笔投入可以计入研发成本，同时提升企业的科技标签和资本市场估值，整体商业账是算得过来的。

　　同时，自研芯片的门槛其实在变低。现在IP生态、EDA工具越来越成熟，加上索喜这类专门帮车企做定制芯片的服务商出现，硬件层面的工程难度已经大幅下降。现在真正难的，是软件栈、编译器适配，以及长期的模型调优迭代，这部分高度定制化的工作，外部芯片厂商很难替车企完成。

02自动驾驶模型迭代，重构芯片设计逻辑

　　目前业内主流的自动驾驶技术路线分为三条，三条路线对芯片的要求完全不一样。没有车企敢只押一条路，基本都是同步布局，避免被技术迭代甩开。

　　第一条是分段端到端路线，也是目前大多数车企在用的方案，代表是Uni-AD，模型参数大多在5亿以内。第二条是VLA视觉-语言-行动路线，结合世界模型、扩散动作模块或MLP提升推理效果，多采用MoE架构，参数普遍在20亿到70亿。第三条是世界模型+扩散动作专家，目前还没有量产落地，真正上车的时间还不确定。

　　行业一直有个误区，认为芯片TOPS算力越高，性能就越强。这套逻辑放在老式CNN模型时代是成立的。但现在已经是CNN+Transformer的混合时代，未来会彻底转向Transformer+DiT。

　　单纯看TOPS已经没有意义。一颗5000TOPS的传统芯片，跑DiT架构，实际效果可能还不如一颗300TOPS的定制芯片。真正决定自动驾驶芯片性能的，是存储带宽、任务编排、分级内存耦合、SFU单元、可编程向量算力这些指标。行业单纯堆算力的TOPS崇拜，已经失效了。

03世界模型核心DiT架构，现有芯片无适配方案

　　世界模型的核心架构是DiT，这套技术在去年才算真正成型。DiT最大的特点是擅长处理时序信息，不只是用来生成图像，更适配视频、动态场景、自动驾驶决策和具身智能的迭代需求。

不管是先模拟再执行，还是训练建模、推理直接输出动作，主流世界模型方案都离不开DiT架构。

　　但目前市面上，没有任何一颗量产芯片是专门为DiT推理设计的。扩散模型的推理流程非常繁琐，传统高算力芯片只能处理规整的矩阵乘法，也就是去噪循环里的基础计算。大量不规则计算、向量编码、内存敏感运算，都要靠CPU和通用算法兜底，对芯片架构要求极高。

因此，坚定走世界模型路线的车企，不想被动等待通用芯片升级，就只能自己自研。

04存储带宽，是自动驾驶芯片的核心瓶颈

　　不管走哪条技术路线，存储带宽都是自动驾驶芯片的关键瓶颈，带宽越大，整体运行效率越高。这一点在VLM视觉语言模型上最突出，解码是VLM最耗时的步骤，而解码速度完全由存储带宽决定，相当于VLM的整体性能，基本绑定芯片带宽。这也是特斯拉在AI4、AI5芯片上拼命拉高带宽的原因。

　　自回归架构的解码阶段非常吃内存，算力再高也没用，最终速度只看带宽和调度延迟。一些小型模型，甚至在CPU上跑比GPU更快。

　　扩散模型则高度依赖批处理数量Batchsize，批次越大，矩阵计算的利用率越高。但批次一大，非规整运算和调度开销会暴涨，整体延迟大幅上升。自动驾驶对延迟非常敏感，实际可用Batch大多只有1到4，基本不超过8。这就导致高端GPU纸面算力很高，但在车载场景里大量算力闲置、浪费。

05三大芯片核心架构，对应三种计算哲学

　　自动驾驶芯片的核心是AI加速器，当前行业的加速器路线之争，本质是三种不同的计算思路。根据矩阵运算单元的架构差异，基本分为大核心、中核心、小核心三类，各有优劣，也各有适配场景。

（1）大核心：极致效率主义

　　大核心主要采用脉动阵列架构，谷歌TPU、AWSTrainium、英特尔Gaudi，以及特斯拉HW3.0、蔚来神玑、小鹏图灵、高通AI100等芯片，都属于这一类。以TPUv5为例，单核心256×256阵列，拥有65536个MAC计算单元，数据一次流入、脉动传输，减少频繁读写内存的压力。在大批次、规整的LLM、VLM模型中，能效和性价比优势非常明显。

　　但大核心的短板也很明显，极度依赖规整的数据矩阵形状。256×256的阵列结构，要求计算维度必须对齐256，一旦对不齐，就要做切片、补零、布局转换等大量预处理工作。即便编译器优化做得很好，算力利用率也很难超过40%，优化不到位甚至不足10%。自动驾驶视觉模型多是稀疏、非规整计算，大核心天生适配性差。即便后续新增稀疏核心，也会进一步加重软件调度负担。同时大核心需要庞大的软件团队支撑，软硬件投入极不对称，长期很难盈利。

（2）小核心：极致灵活主义

　　小核心本质是多核CPU架构，典型代表是特斯拉Dojo，由384个独立核心组成，每个核心都有独立控制逻辑和本地SRAM。优势是兼容性极强，任意数据形状、Batch=1的极小批次都能保持高利用率，适配解码、MoE路由、KV缓存、稀疏运算等各类复杂场景。测试数据显示，75%稀疏度下，小核心速度是稠密架构的2.5倍，这是大核心做不到的。

　　但小核心的代价也很高，每个核心都要配套独立的控制、译码、寄存器资源，同等算力下，芯片面积和成本是脉动阵列的2到5倍，成本劣势非常明显，这也是业内很少有人纯做小核心架构的原因。

（3）中核心：平衡主义

　　英伟达走的是中间路线，不极致偏效率，也不极致偏灵活。GPU的TensorCore采用16×16中核心负责稠密算力，CUDA小核心负责控制流和稀疏计算，两套架构并存。通过调度机制抹平形状适配问题，不规整的计算由CUDA核心补齐。英伟达真正的优势，从来不是纸面算力，而是在效率、灵活性和开发生态之间做到了最好的平衡。这也是车企普遍喊“去英伟达化”，但绝大多数依旧离不开英伟达的核心原因。

　　理想、Momenta、华为车载芯片，基本都是中核心思路，特斯拉下一代AI5也大概率转向中核心。高通的升级逻辑也类似，从SA8155到SA8797，矩阵单元规模不变，一直在加强标量、矢量线程能力，用来适配越来越复杂的推理场景。

06没有完美芯片，只有路线押注

　　三种架构都有明显短板。大核心适合规整、高密度的大模型，模型越大优势越明显，但跑DiT、扩散模型这种混合密度、强串行、不规则计算的场景很吃力。小核心适配DiT和稀疏场景，但成本太高、性价比不足。英伟达中核心兼顾两端，但面对新一代扩散、世界模型，依旧存在性能瓶颈。

　　而且车载场景无法像云端一样跑超大参数模型，内存和成本都不允许，所以“中核心+小核心”的混合架构，是目前最务实的方案。

　　目前小米、吉利、比亚迪、Momenta的自研芯片项目都在稳步推进，技术落地没有硬性障碍。唯独传统车企，依旧倾向于外购芯片、尽量不自研。这种选择无可厚非，但在自动驾驶模型快速迭代的当下，这种保守路线的压力会越来越大。

　　自动驾驶芯片真正的难点，从来不是造出芯片，而是在当下，提前押中未来五年的AI技术方向。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

世界模型来袭!传统自动驾驶芯片已然失效

最新文章

热门文章

随机文章

世界模型来袭!传统自动驾驶芯片已然失效

年轻人的第一台轿跑SUV,先别急着只看帅不帅

[自动驾驶大模型]算力基建的极佳 ROI:GPU/CPU 工作负载分析与多芯选型

最新文章

热门文章

随机文章