当前位置：首页>自动驾驶>自动驾驶SoC通信架构:被算力数字掩盖的真正战场

自动驾驶SoC通信架构:被算力数字掩盖的真正战场

2026-05-17 10:34:33

在自动驾驶芯片的竞争中，TOPS 一直是最容易被传播、也最容易被误读的指标。它简单、直接、好比较：一颗芯片有多少 TOPS，似乎就意味着它能支撑多强的智能驾驶能力。但这只是营销层面的方便叙事，不是工程层面的真实性能。

自动驾驶 SoC 不是一个只做矩阵乘法的孤立计算器，而是一个由传感器输入、预处理、感知网络、BEV 表征、时序融合、预测、规划、控制、诊断和安全监控共同构成的实时数据流系统。算力只是其中一个维度。真正决定系统表现的，常常是数据能否在正确的时间、以正确的格式、经过正确的路径送到正确的计算单元。

也就是说，自动驾驶 SoC 的核心矛盾正在从“算不算得动”转向“数据搬不搬得动”。因此不能只看 TOPS，必须看数据流、内存带宽、NoC 拥塞、缓存一致性、QoS 和软件调度。

图 1：自动驾驶 SoC 性能不是 TOPS 单变量问题

这张图的核心意思很简单：TOPS 只是入口指标，不是系统性能本身。

一、为什么 TOPS 会误导自动驾驶芯片性能判断

TOPS 表示每秒万亿次操作，通常用于衡量 AI 加速器的理论推理能力。但它至少有三个天然限制。

第一，TOPS 通常是峰值指标，不等于实际可持续性能。芯片宣传中的 TOPS 往往建立在特定数据类型、特定稀疏性假设、特定算子形态和理想利用率之上。自动驾驶模型里的算子却远比单一 GEMM 复杂，既包括卷积、矩阵乘法，也包括 attention、grid sample、scatter-gather、indexing、reshape、layout transform 等大量非规则操作。

第二，TOPS 不反映内存带宽。一个算子即使理论计算量很大，如果每次计算都需要频繁从 DRAM 读取数据，那么性能上限会被内存带宽卡住，而不是被算力卡住。

第三，TOPS 不反映系统调度与通信效率。自动驾驶 SoC 内部通常包含 CPU、GPU、NPU/BPU/DLA、ISP、PVA、MCU、安全岛、视频编解码模块、DMA 控制器和内存控制器。这些单元之间的数据交换，需要依赖片上互联、缓存层级、共享内存、驱动和编译器协同。任何一个环节设计不好，都会让峰值算力变成纸面数字。

这一点可以用 Roofline Model 解释。Roofline 模型将性能上限描述为峰值计算能力与内存带宽乘以算术强度之间的较小值，即：性能上限取决于 Peak Compute 和 Memory Bandwidth × Arithmetic Intensity 中更小的那一个。Roofline 模型的核心价值，就是判断一个 kernel 到底是 compute-bound 还是 memory-bound。

表 1：TOPS 指标的价值与盲区

维度	TOPS 能说明什么	TOPS 不能说明什么	工程判断方式
峰值算力	AI 加速器在理想条件下的计算上限	实际模型能否跑满	看有效利用率、算子覆盖率
数据类型	INT8/FP16/稀疏算力口径	不同精度下的真实性能差异	区分 INT8、FP16、FP8、稀疏 TOPS
模型适配	是否有足够理论算力支撑大模型	算子是否被硬件高效支持	看编译器、算子库、fallback 情况
内存系统	基本无能为力	DRAM 带宽、cache 命中、访存模式	看 bandwidth、latency、bus efficiency
系统实时性	基本无能为力	P99/P99.9 延迟、拥塞、调度抖动	看 tail latency、deadline miss
量产表现	只能作为粗略入口指标	功耗、散热、软件栈、稳定性	看整车 workload 下的闭环测试

工程结论是：只拿 TOPS 讲自动驾驶芯片性能，本质上是把复杂系统问题降维成了宣传口径。

二、Roofline：理解“算得动”与“搬得动”的分界线

自动驾驶 SoC 的真实性能，可以用一个简化公式理解：

实际性能 ≈ min(峰值计算能力, 有效内存带宽 × 算术强度)

其中：

概念	含义	SoC 中的对应问题
峰值计算能力	理论最大 OP/s 或 TOPS	AI 加速器、GPU、DLA/BPU 的计算上限
内存带宽	单位时间可搬运的数据量	LPDDR/GDDR/HBM、内存控制器、NoC、DMA
算术强度	每 Byte 数据对应多少计算	算子是否能复用数据，是否频繁访问 DRAM
有效性能	真实 workload 下的吞吐和延迟	车端模型实际帧率、响应时间、功耗

传统 Roofline 模型通常用于 HPC，用 FLOP/s、Byte/s 和 FLOP/Byte 表达。放到自动驾驶推理芯片里，可以泛化为 OP/s、Byte/s 和 OP/Byte。但这里必须非常小心：不同芯片宣传的 TOPS 可能对应 INT8、稀疏 INT8、FP16 或其他口径，不能把不同数据类型的数值直接混在一起比较。

图 2：Roofline 在自动驾驶 SoC 中的简化解释

Roofline 的意义不是给文章装一个公式，而是逼你面对一个事实：如果算术强度不够高，堆再多 TOPS 也没用。

三、自动驾驶 pipeline 的混合算术强度特征

自动驾驶算法栈不是单一负载，而是多类负载混在一起。不同模块的计算密度、访存模式、实时性要求完全不同。

CNN backbone、部分 BEV encoder、Transformer 中的大型矩阵乘法，通常具有较高数据复用率，更容易接近 compute-bound。它们对 AI 加速器的矩阵计算能力要求较高，也更容易从高 TOPS 中获益。

但自动驾驶系统中还有大量 memory-bound 或 latency-bound 操作，例如 BEV 空间变换、grid sample、multi-view attention、scatter-gather、点云体素化、Occupancy 更新、多传感器融合等。这些模块不一定拥有最高理论计算量，却可能消耗大量数据搬移时间。

表 2：自动驾驶典型模块的瓶颈类型

模块	代表操作	访问模式	算术强度	主要瓶颈
CNN Backbone	convolution / GEMM	连续访存，高复用	高	多数情况下偏 compute-bound
BEV View Transform	grid sample / view transform	非连续采样	中低	memory-bound
Transformer 感知	self-attention / cross-attention	混合访存，部分不规则	中等到偏低	compute + memory 混合
Occupancy	voxel update / scatter-gather	离散写入、随机访问	低	latency-bound / memory-bound
多传感器融合	feature concat / temporal fusion	fan-in 汇聚	中低	NoC / DRAM 拥塞
规划预测	graph / trajectory scoring	小批量、不规则	中低	tail latency
控制链路	状态机、控制量输出	小数据、高实时性	低	确定性延迟

这里最容易被外行低估的是 BEV、occupancy、multi-view fusion 和 attention 里的非规则访存。它们看起来不像大矩阵乘法那样“重”，但往往会让系统卡在 feature map 读取、跨视角采样、索引、layout 转换和同步等待上。

图 3：自动驾驶 pipeline 中的数据流与瓶颈位置

如果只看 TOPS，你会误以为瓶颈在 CNN/Transformer Backbone；但真实系统里，瓶颈经常出现在 BEV 空间变换、多模态/时序融合、Occupancy/检测/车道线/可行驶区域这些“数据组织和数据搬移”环节。非规则采样[Memory-bound]、多源汇聚[NoC incast拥塞]、scatter-gather[Latency-bound]。

四、片上互联：自动驾驶 SoC 被低估的内部交通系统

如果把自动驾驶 SoC 比作一座城市，CPU、GPU、BPU/DLA 是不同类型的工厂，SRAM 和缓存是近端仓储，DRAM 是大型物流中心，那么片上互联就是城市道路系统。

工厂产能再强，如果道路堵死、仓库装卸慢、调度混乱，整个城市照样瘫痪。

过去较简单的 SoC 可以使用共享总线。共享总线结构简单、面积小、设计成本低，但它本质上是时分复用通道：同一时刻只有有限主设备可以占用总线。随着 CPU、GPU、AI 加速器、ISP、视频编解码器、安全模块和 DMA 数量增加，共享总线会迅速暴露出可扩展性不足的问题。

随着主设备数量、并发请求和突发流量增加，共享总线的排队延迟和仲裁复杂度会显著恶化，可能呈现线性或超线性增长，具体取决于仲裁策略、请求模式和负载强度。

NoC，即 Network-on-Chip，正是为解决这个问题而出现。NoC 用分布式路由器、点对点链路和多通道流控机制取代单一共享总线，使多个数据流可以并行传输。它不是简单“更宽的总线”，而是芯片内部的网络系统。

表 3：共享总线、多层总线与 NoC 的工程对比

维度	共享总线	多层总线/交叉开关	NoC
基本结构	多主设备共享单一通道	多条通道或局部交叉连接	分布式路由器 + 点对点链路
可扩展性	差	中等	强
并发能力	低	中等	高
延迟特征	负载高时恶化明显	取决于局部结构	取决于 hop、拥塞、QoS
设计复杂度	低	中	高
面积功耗	低	中	中到高
适用场景	小规模 SoC	中等复杂 SoC	大规模异构 SoC
自动驾驶适配度	不足	部分适配	主流方向

但也不能把 NoC 简化成“Mesh 一定优于 Ring”或“拓扑决定一切”。在真实 SoC 中，NoC 性能取决于拓扑结构、路由策略、链路位宽、频率、buffer 深度、虚拟通道设计、QoS 仲裁、DRAM 控制器分布、cache/snoop 一致性流量、DMA burst 策略和软件调度节奏。

因此，评价自动驾驶 SoC 的片上互联，不能只问“是不是 Mesh”，而要问：在多摄像头输入、BEV 刷新、AI 推理、日志写入、控制信号并发时，它能不能控制拥塞，尤其能不能控制尾延迟。

五、NoC 真正的问题不是平均带宽，而是拥塞与尾延迟

自动驾驶系统是强实时系统。平均性能不够说明问题。真正危险的是 P99、P99.9 甚至最坏情况延迟。

NoC 拥塞不一定只来自总带宽不足，更常见的是局部热点、同步突发和关键资源争用导致的尾延迟恶化。自动驾驶 SoC 中有三类典型拥塞模式。

图 4：三类典型 NoC 拥塞模式

表 4：NoC 拥塞模式、表现与治理方式

拥塞类型	典型触发条件	直接表现	工程后果	优化策略
热点拥塞	多模块长期访问同一 DRAM 控制器	局部链路持续高利用率	平均延迟和尾延迟都升高	数据分片、地址交织、负载均衡
汇聚拥塞	多核同步读取同一 feature map	buffer 瞬时耗尽	某些关键帧突然变慢	多副本缓存、任务错峰、sharding
周期性突发	传感器/BEV 周期对齐	周期性拥塞波	延迟抖动、有规律卡顿	加 jitter、调度错峰、pipeline 重排
大块 DMA 阻塞	长 burst 占用链路	小消息排队	控制链路被拖慢	burst 限制、QoS、虚拟通道
一致性流量冲击	频繁共享写入	snoop/响应流量增加	NoC 额外负载	减少共享写、显式同步

所以，NoC 优化的核心目标不是单纯降低平均延迟，而是控制关键路径的尾延迟上界。对自动驾驶而言，系统“多数时候很快”没有意义；真正重要的是“最坏情况下也不能慢到失控”。

六、QoS 很重要，但 QoS 不是万能解

现代 SoC 通常会引入 QoS 机制，为不同类型流量分配不同优先级。例如安全相关数据、传感器同步信号、控制路径消息和故障诊断信息，应当比日志、调试信息、后台地图更新、非关键 DMA 传输拥有更高优先级。

但 QoS 只能回答“谁先走”，不能解决“路够不够宽”。当底层链路、buffer 或 DRAM 控制器已经被大量数据占用时，高优先级流量仍然可能等待，只是等待时间相对较短。

图 5：QoS 的边界

完整的设计应包括：

层级	机制	作用
NoC 层	虚拟通道 VC	隔离控制流量与大块数据流量
NoC 层	credit-based flow control	防止 buffer 溢出，形成反压
调度层	任务错峰	减少同步 incast
DMA 层	burst 长度控制	避免长事务霸占链路
内存层	地址交织/多控制器分配	避免热点内存控制器
编译器层	算子融合/layout 优化	减少中间结果搬移
系统层	安全关键路径隔离	保证最坏情况延迟

真正可靠的实时性，不能只靠优先级，而要靠资源隔离、流量整形和最坏情况分析共同保证。

七、J6M 与 Orin X：系统取向对比

两家公司并未充分公开对应产品的片上 NoC 拓扑细节。

地平线公开资料显示，征程 6M 具备 128 TOPS 算力、137K CPU DMIPS，并集成 BPU、CPU、GPU、MCU 等计算资源，面向其目标智驾场景降低系统集成难度；征程 6 系列还公开强调全系搭载 BPU 纳什架构，支持大参数 Transformer、端到端与交互式博弈等先进智驾算法部署。

NVIDIA DRIVE AGX Orin 的公开规格显示，单颗 Orin SoC 包含 12 核 Cortex-A78A CPU，最高 254 INT8 TOPS，具备 256-bit LPDDR5，官方标称最高约 200GB/s 内存带宽，并集成 GPU、DLA、PVA、ISP、视频编解码和车载 I/O 能力。

J6M 的公开叙事更强调面向中国量产智驾场景的高集成度、成本效率、算法协同和单芯片部署能力；Orin 的公开叙事更强调异构计算资源完整性、CUDA/TensorRT/DRIVE 生态、可编程性和平台扩展能力。

表 5：J6M 与 Orin X 的公开指标

维度	地平线征程 J6M	NVIDIA DRIVE AGX Orin / Orin X
AI 算力	128 TOPS	最高 254 INT8 TOPS
CPU 指标	137K CPU DMIPS	12 核 Cortex-A78A
内存带宽	公开资料未充分披露具体位宽/带宽	256-bit LPDDR5，最高约 200GB/s
计算资源	BPU、CPU、GPU、MCU	CPU、GPU、DLA、PVA、ISP 等
软件生态	地平线工具链与车企联合优化	CUDA/TensorRT/DRIVE 生态
量产定位	高集成、城区 NOA、单芯片方案	高性能异构平台、可编程性强
NoC 拓扑	未充分公开	未充分公开
缓存一致性实现	未充分公开	未充分公开
NVLink-C2C	不适用	不能套到 Orin X

图 6：J6M 与 Orin X 对比的正确打开方式

八、关于 NVLink-C2C：必须从 Orin 中拆出来

表 6：NoC、PCIe、NVLink-C2C 的概念边界

技术	位置	主要用途	是否可直接类比
NoC	芯片内部	CPU/GPU/DLA/ISP/内存控制器之间通信	是 SoC 内部交通网
PCIe	芯片/设备之间	外设、独立加速卡、跨芯片数据交换	带宽相对有限，协议通用
NVLink-C2C	芯片间/芯粒间	高带宽、低延迟、一致性互联	不能直接等同于 Orin 内部 NoC
DRAM 接口	SoC 到外部内存	大规模数据存储与交换	是自动驾驶 SoC 生命线

图 7：NoC 与 NVLink-C2C 的边界关系

NoC 是芯片内部交通网；NVLink-C2C 是芯片间或芯粒间高速互联。

九、内存带宽：自动驾驶 SoC 的生命线

自动驾驶系统中，大量数据交换并不是在计算单元之间直接点对点完成，而是通过共享 DRAM、缓存层级和 DMA 进行。

共享内存架构的优势是明显的：相比独立 CPU 内存和独立 GPU 显存之间通过 PCIe 拷贝，SoC 内部的统一地址空间或共享物理内存可以减少显式数据搬运。但这不等于“共享内存天然高效”。

真实性能仍受以下因素制约：

DRAM 总带宽；
内存控制器数量与调度；
cache coherency 策略；
DMA 同步成本；
IOMMU 地址转换；
buffer 对齐；
数据 layout；
多计算单元并发访问模式。

以 Orin 为例，官方公开规格为 256-bit LPDDR5，最高约 200GB/s 内存带宽。这个数字已经不低，但面对多摄像头输入、BEV 特征构建、多模型并发和后台任务时，仍然需要精细调度。

对 J6M 而言，公开资料确认了 128 TOPS 和 137K CPU DMIPS，但没有充分披露内存位宽与内存带宽。

图 8：自动驾驶 SoC 的存储层级

表 7：存储层级的作用与瓶颈

层级	典型容量	典型延迟	典型带宽	主要作用	自动驾驶中的风险
寄存器/L1	KB 级	极低	极高	单核局部计算	容量太小
L2/局部缓存	MB 级以内	低	高	数据复用	cache miss
片上 SRAM/共享缓存	MB 到数十 MB	低到中	高	feature/权重缓存	bank conflict、容量不足
NoC	无存储	取决于 hop 与拥塞	取决于链路与拓扑	片内数据运输	拥塞、尾延迟
DRAM	GB 级	高	百 GB/s 级或更高	大模型与大特征存储	带宽争用、随机访存低效

实际评估中容易被忽略的是：DRAM 带宽不是写在规格表上就能全用上。有效带宽取决于访问是否连续、burst 是否足够、bank 是否冲突、控制器是否拥塞、NoC 是否堵塞、cache 是否命中、DMA 是否合理、layout 是否匹配。

十、缓存一致性：共享内存背后的隐性成本

共享内存通信看起来简单：CPU 写入一块内存，GPU、BPU 或 DLA 去读取即可。但实际工程中，这里有一个复杂问题：缓存一致性。

CPU、GPU 和 AI 加速器可能拥有不同层级的缓存或本地 SRAM。当一个设备修改了某块内存，另一个设备如果仍然看到旧缓存，就会产生数据一致性问题。

传统教材常用 MESI 协议解释缓存一致性，但现代车载 SoC 并不是简单“所有缓存行修改都广播到所有核心”。实际系统往往使用 directory、snoop filter、I/O coherency、AMBA CHI、软件 cache maintenance、non-cacheable mapping 等机制来降低一致性开销。

NVIDIA 对 NVLink-C2C 的公开资料提到其支持面向高带宽一致性连接的 chip-to-chip interconnect，并用于 Grace 等产品；但这类资料不能直接反推 Orin X 内部 NoC 的具体一致性实现。

图 9：CPU 与加速器共享内存的数据同步流程

表 8：coherent 与 non-coherent 路径对比

路径	优点	缺点	适合数据
coherent memory	编程简单，CPU/设备视图一致	一致性维护有开销	小数据、控制结构、状态信息
non-coherent memory	减少一致性流量，适合大块数据	需要显式 flush/invalidate	图像、点云、feature map
zero-copy buffer	减少复制，降低 CPU 参与	生命周期管理复杂	传感器输入、大型中间结果
device-local buffer	加速器访问效率高	CPU 访问不方便	模型权重、局部激活值

工程上真正要做的不是迷信“共享内存”，而是减少无意义的数据复制、减少 CPU cache 参与、减少 layout 转换，并保证每一步同步语义明确。

十一、工程优化：比堆 TOPS 更重要的五件事

1. 数据布局必须服从硬件和算子库

不能简单说 NHWC 一定比 NCHW 好，也不能反过来说 NCHW 一定更优。不同硬件、编译器、TensorRT/BPU 编译器、DLA 后端和算子库，对 layout 的偏好不同。

真正的优化目标是：

减少 layout transform；
提高连续访存比例；
提高 cache 命中率；
支持算子融合；
避免为了单个算子局部最优，破坏整条 pipeline 的全局效率。

2. 不要盲目 batch，要控制实时延迟

批量处理可以提高吞吐，但自动驾驶不是离线推理。在线感知链路中，batch 过大可能增加等待时间，导致端到端延迟恶化。

更合理的做法不是简单增大 batch，而是：

合并小 DMA 请求；
做 tensor fusion；
做算子融合；
通过流水线并行提高资源利用率；
在不增加关键路径等待的前提下打包数据。

3. 双缓冲能隐藏延迟，但不是魔法

双缓冲可以让数据搬移和计算重叠。当计算时间大于或接近传输时间时，它能显著改善吞吐。但它不能消除首帧延迟，也不能在传输时间超过计算时间时完全隐藏数据搬移。

双缓冲提升的是稳态 pipeline 的吞吐效率，而不是无条件降低所有场景下的端到端延迟。

4. DMA burst 长度要控制

过大的 DMA burst 会长时间占用链路资源，使高优先级小消息等待；过小的 burst 又会增加协议开销，降低有效带宽。

合理的策略是根据流量类型分级：

流量类型	burst 策略	优先级	原因
大块 feature map	中长 burst	中	提高带宽利用率
传感器帧数据	中等 burst	高	保证输入稳定
控制/同步消息	短事务	最高	控制尾延迟
日志/调试数据	延后/低优先级	低	避免干扰关键链路
地图/后台更新	分片传输	低到中	避免周期性大流量冲击

5. 打散同步突发流量

多摄像头、多模型、多 DMA 任务如果完全同步启动，很容易形成 incast。工程上可以通过调度错峰、时间抖动、分片传输、多副本缓存和任务分组，降低瞬时拥塞。

图 10：自动驾驶 SoC 数据流优化路径

十二、自动驾驶 SoC 评估矩阵：比 TOPS 更实用的检查框架

如果要真正评估一颗自动驾驶 SoC，不应该只问“多少 TOPS”，而应建立多维矩阵。

表 9：自动驾驶 SoC 真实评估矩阵

一级维度	二级问题	为什么重要
算力	INT8/FP16/稀疏 TOPS 分别是多少	防止不同口径混比
算子覆盖	BEV、attention、grid sample 是否高效	决定先进模型能否有效部署
内存带宽	DRAM 带宽与有效利用率	决定 memory-bound 模块表现
NoC	拥塞控制、QoS、虚拟通道	决定多模块并发稳定性
缓存	SRAM/cache 容量与一致性策略	决定数据复用效率
DMA	burst、scatter-gather、同步机制	决定数据搬移成本
编译器	算子融合、layout 自动优化	决定峰值算力能否落地
软件生态	runtime、调试、profile 工具	决定量产开发效率
功耗	满载功耗、典型场景功耗	决定散热与整车集成
安全	ASIL、安全岛、冗余机制	决定功能安全边界
实时性	P99/P999 latency	决定最坏情况下是否可靠
量产适配	车企算法栈迁移成本	决定商业落地速度

图 11：自动驾驶 SoC 评估脑图

十三、未来趋势：从以计算为中心到以数据流为中心

自动驾驶 SoC 的发展方向，不会只是继续堆 TOPS。下一阶段真正重要的是数据流效率。

1. 更强的片上互联与 QoS

未来 SoC 会继续强化 NoC、系统级缓存、内存控制器调度和 QoS 管理。目标不是让所有流量都最快，而是让关键流量有界、可预测、可验证。

2. Chiplet 与高速芯片间互联

随着单芯片面积、良率和成本压力上升，chiplet 和先进封装会越来越重要。NVLink-C2C 这类技术的意义在于提供高带宽、低延迟、支持一致性的芯片间连接。NVIDIA 官方资料明确将 NVLink-C2C 用于 Grace CPU Superchip 等产品，其中两颗 Grace CPU 通过 NVLink-C2C 以 900GB/s 连接。

但必须再次强调：这不等于 Orin X 使用 NVLink-C2C。

3. 近内存计算

近内存计算会在数据搬移成本高、算术强度低的任务中体现价值。例如传感器预处理、稀疏特征处理、部分压缩/解压、简单滤波和数据重排。它的核心逻辑不是让内存替代 AI 加速器，而是减少低价值数据在芯片内部来回搬运。

4. 软件定义的数据流调度

未来的自动驾驶系统不只是硬件问题。编译器、runtime、驱动和中间件会越来越关键。谁能更好地分析模型图、预测访存压力、融合算子、安排 DMA、控制 NoC 流量，谁就能把同样的硬件跑出更高有效性能。

图 12：下一代自动驾驶 SoC 的演进方向

结论：自动驾驶 SoC 的竞争，正在从峰值算力转向系统效率

自动驾驶 SoC 的性能不能只看 TOPS。TOPS 只是理想计算上限，真实量产表现取决于数据流是否顺畅。

真正决定系统能力的，是计算、内存、片上互联、缓存一致性、DMA、QoS、编译器、驱动和算法结构之间的协同。CNN、Transformer、BEV、Occupancy、Fusion 和规划控制模块具有完全不同的数据访问模式，因此同一颗芯片在不同算法栈下可能表现差异巨大。

J6M 和 Orin X 的对比，也不应被粗暴写成 Mesh 与 Ring 的拓扑对决。公开资料能确认的是：J6M 具备 128 TOPS、137K CPU DMIPS，强调高集成度、单芯片部署、普惠城区 NOA 和算法协同；Orin 公开披露了更完整的异构计算资源、最高 254 INT8 TOPS、12 核 Cortex-A78A CPU、256-bit LPDDR5 和最高约 200GB/s 内存带宽。至于两者内部 NoC 拓扑、缓存一致性域、具体互联平面和流控细节，公开资料不足。

更高级的判断框架应该是：

不问一颗芯片有多少 TOPS，而问它在真实自动驾驶 pipeline 中，有多少 TOPS 能被持续、稳定、低延迟地转化为有效输出。

这才是自动驾驶 SoC 从参数竞赛走向工程成熟的关键。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。