这篇论文实质讲的是如何在一颗给定的自动驾驶芯片上,找到一个AI大模型的最优架构设计方案。
芯片的算力是有限的,内存是有限的,数据搬运的速度也是有限的,但自动驾驶又要求模型既聪明又反应快。论文提出了一套数学框架,让工程师不需要真的去训练成百上千个模型做对比,而是通过公式就能预测出:在某颗特定芯片上,模型应该设计成多少层、多宽、用不用稀疏结构,才能在满足时延和内存限制的前提下,让模型的智能水平最高。
理想团队在NVIDIA Jetson Orin平台上评估了1,942个候选架构,并从中筛选出170个代表性模型进行实际训练(每个模型训练100亿个token),从而拟合出了这套Scaling Laws。最终在与Qwen2.5-0.5B相同时延条件下,协同设计出的架构将模型困惑度(衡量模型预测能力的指标,越低越好)降低了19.42%。
论文标题说的是硬件协同设计,不是软硬件协同设计,这是因为论文中协同的两方并非传统意义上的软件团队和硬件团队。协同的是AI模型的架构参数(比如模型多少层、每层多宽、用多少专家)和芯片的硬件特性(比如峰值算力多大、内存带宽多快、总内存多少)。
论文的核心工作是将硬件的物理约束用数学公式表达出来,然后在这些约束下搜索最优的模型架构。所以Hardware Co-Design准确地说是将硬件特性纳入模型设计的协同优化,而不是软件和硬件一起从零开始设计。
公式1:优化的终极目标
公式1定义了理想汽车进行芯片上模型设计的核心哲学——在确保响应速度足够快、内存占用足够小的两个硬性前提下,尽可能地提升模型的智能水平。
这组公式描述了一个典型的戴着镣铐跳舞的工程问题——在严格的约束条件下寻求最优解。
第一行 的含义:
代表AI模型的损失函数,可以简单理解为模型的错误率——这个数值越小,说明模型越精确、越聪明。是一组参数的集合,代表了AI模型所有可以调整的架构设计选项。
论文中明确定义了 ,其中每个字母代表模型的一个设计维度:
- : 模型的层数(深度)。Transformer模型由多个相同结构的层堆叠而成,层数越多,模型理论上能学到越复杂的规律。
- : 模型的宽度(隐藏维度)。每一层中神经元的数量,宽度越大,模型每一层能处理的信息就越丰富。
- : KV缓存维度,等于每个注意力头的维度 乘以KV头的数量 。这个参数决定了模型在处理长序列时需要缓存多少中间信息,直接影响内存占用。
- : FFN扩展比。Transformer中有一个叫前馈网络(Feed-Forward Network)的模块, 决定了这个模块内部的宽度是模型宽度 的多少倍。比如 意味着FFN内部宽度是 的4倍。
- : 专家激活率。这是针对MoE(Mixture of Experts,混合专家)稀疏模型的参数。,其中 是总专家数, 是每次计算实际激活的专家数。比如有16个专家但每次只用2个,则 。对于不使用MoE的传统稠密模型,(即所有参数都参与计算)。
代表所有可能的参数组合构成的搜索空间。所以 的完整含义是:在所有可能的模型架构方案中,找到那个让错误率最低的方案。
第二行 的含义:
代表模型完成一次推理计算所需的时间,即时延。这个时延不仅取决于模型架构 ,还受到两组外部因素的影响:
- : 硬件参数。 是芯片的峰值计算速度(单位:每秒能执行多少次浮点运算), 是芯片的内存带宽(单位:每秒能搬运多少字节数据)。
- : 工作负载配置。 是批大小(一次同时处理几条数据), 是输入序列长度, 是输出序列长度。
是预设的最大允许时延。对于自动驾驶而言,这个值极为苛刻——系统必须在极短时间内完成感知和决策。这条约束的意思是:无论模型多聪明,跑起来必须足够快,不能超过时延红线。
第三行 的含义:
代表模型运行时占用的总内存,包括模型权重本身和计算过程中产生的中间数据(如KV缓存)。 是芯片上可用的内存总量。这条约束的意思是:模型不能太大,必须完全装进芯片有限的内存空间里。
公式2:如何预测模型的聪明程度
公式2是一个模型能力预测器。通过代入架构参数,工程师可以在不实际训练的情况下,快速估算任意一个模型架构的最终性能,极大地加速了架构搜索和设计迭代。
公式1告诉我们目标是让 最小,但怎么知道一个还没训练的模型架构最终能达到多低的错误率呢?
直接训练成千上万个模型来比较,成本太高、时间太长。因此,研究团队通过训练170个有代表性的模型,用实验数据拟合出了这个预测公式 ( 上面的帽子符号表示这是一个估计值)。只要把模型的架构参数代入,就能快速估算出它训练完成后的错误率。
这个公式的结构是五项相加,每一项代表一个影响因素对最终错误率的贡献。
第一项 —— 深度的贡献
这是一个关于层数 的幂函数。 和 是通过实验数据拟合出来的常数,论文给出的值为 ,。
这个式子的运算逻辑是:先计算 的 次方(即 ),然后用 去除以它。举个例子:如果 (10层),则 ,这一项约为 ;如果 (20层),则 ,这一项约为 。可以看到,层数越多,这一项越小,对总错误率的贡献越低——符合直觉:模型越深,通常能力越强。
第二项 —— 宽度与稀疏度的交互贡献
这一项比较复杂,涉及三个架构参数:宽度 、稀疏度 ,以及它们之间的相互作用。拟合系数为 ,,,。
运算逻辑分三步:首先计算括号内部—— 乘以 ;然后对括号内的结果取 次方(负指数意味着取倒数后再乘方,即括号内值越大,结果越小);最后乘以系数 。
注意 是负数,所以 ,这意味着 越小(模型越稀疏), 反而越大,使得分母增大。这一项揭示了一个关键洞察:宽度和稀疏度并非独立起作用,它们之间存在复杂的耦合关系,需要协同调整才能达到最优。
第三项 —— FFN扩展比与宽度的联合贡献
拟合系数为 (论文中记为 ),。这里 是FFN扩展比, 是宽度。运算逻辑:先计算 的 次方,再乘以 ,最后用500除以这个乘积。当 越大(即FFN越宽、模型越宽),这一项越小,错误率越低。
第四项 —— KV缓存维度的贡献
拟合系数为 ,。注意 非常小(仅0.05),这意味着 的变化对这一项的影响极为微弱。换句话说,KV缓存维度对模型最终精度的影响相对较小,但它对内存占用的影响却很大——这是一个典型的"对性能帮助不大但对资源消耗影响很大"的参数,在设计时需要谨慎权衡。
第五项 —— 不可消除的基础错误
这是一个常数,代表理论上的错误下限。无论模型架构设计得多完美、训练数据多充分,总会存在一个无法被消除的最低错误水平。这是由数据本身的噪声和任务的内在不确定性决定的。
公式3:模型的反应速度上限
公式3是硬件协同设计的核心桥梁。它将模型架构(决定 和 的大小)与硬件特性( 和 )直接关联起来,让工程师能够精确判断一个模型在特定芯片上的运行瓶颈在哪里,从而进行针对性的架构调整。
公式2解决了如何预测模型有多聪明的问题,但公式1的约束条件还要求模型跑得足够快。公式3正是用来估算时延上限的工具,它源自计算机体系结构中经典的Roofline模型。
—— 纯计算所需的时间
是模型完成一次推理所需的总浮点运算量(FLOPs,即加法、乘法等数学运算的总次数)。 是芯片的峰值计算速度(FLOPS,即每秒最多能执行多少次浮点运算)。两者相除,就得到了假设数据供应完全跟得上的情况下,纯粹做完所有计算需要多长时间。
—— 纯数据搬运所需的时间
是计算过程中需要从内存中读取和写入的总数据量(单位:字节)。 是芯片的内存带宽(单位:字节/秒),即数据在芯片和内存之间的搬运速度上限。两者相除,就得到了假设计算单元完全不需要等待的情况下,纯粹搬完所有数据需要多长时间。
—— 取两者中更慢的那个
函数的含义是取两个值中的最大值。这是整个公式最关键的洞察:芯片在工作时,计算和搬数据是可以同时进行的(流水线并行),但最终耗时取决于更慢的那个环节。
打个比方:一个工厂有加工车间(算力)和物流系统(带宽)。如果物流很快但加工很慢,产品堆在车间门口等加工,总耗时由加工速度决定——这叫计算瓶颈(compute-bound)。反过来,如果加工很快但物流跟不上,车间空转等原料,总耗时由物流速度决定——这叫访存瓶颈(memory-bound)。
论文指出在当前的边缘计算芯片上,大语言模型的推理过程大多处于访存瓶颈状态,即内存带宽是主要限制因素。
公式4:宽度与稀疏度的最优配比法则
公式4提出了反直觉但至关重要的结论——在内存受限的边缘设备上,模型设计得越宽,其最佳的稀疏度反而应该越高(即每次激活的专家比例越低)。
即与其把有限的内存预算全部用来增加宽度,不如同时增加总专家数但减少每次激活的数量,用更多但更稀疏的专家来换取更高的模型容量。这为芯片上的模型架构设计提供了清晰的数学指导。
公式4是论文从前面的理论框架中推导出的一条极具实用价值的设计准则。它回答了一个核心问题:在内存有限的情况下,模型应该做得更宽还是更稀疏?
- : 最优的专家激活率。上标的星号 代表最优值,即在给定宽度 下,能让模型达到最佳性能的那个稀疏度。
- : 宽度 的某个幂次方。指数 由之前拟合出的系数决定。
代入数值计算指数:
论文拟合出的系数为 ,,。
指数 =
因此公式简化为:
负指数意味着反比关系: 越大, 越小。具体来说,论文给出了一个量化指导:当模型宽度 翻倍时,最优激活率 应该降低约2.3倍(因为 )。
基于这篇论文和此前的一些公开信息,TOP2推理马赫100芯片具有以下特点:
1. 采用数据流架构,从底层为AI大模型推理而设计
2. 重点优化内存带宽,追求有效算力而非峰值算力
论文中的Roofline模型(公式3)揭示了一个现实:在边缘设备上运行大语言模型时,峰值算力 往往无法完全发挥,真正的瓶颈在于内存带宽 。李想本人也强调有效算力概念,声称马赫100跑VLA大模型时有效算力是英伟达Thor-U的3倍。如果仅比较峰值算力参数,这个倍数很难成立(马赫100单颗1280 TOPS vs Thor-U约700 TOPS,峰值比不到2倍)。因此可以推断,马赫100在内存带宽、片上缓存、数据通路等方面进行了深度优化,使得在实际大模型负载下的硬件利用率远高于通用芯片。
3. 自研编译器是软硬协同的技术中枢
官方信息提到数据驱动的逻辑由自研的编译器进行调度以及通过编译器来定义芯片功能模块。这与论文中通过调整模型架构参数 来匹配硬件特性 的思想完全一致。
编译器扮演了将高级AI模型代码(如PyTorch)翻译并最优化映射到数据流硬件上的桥梁角色。正是这个强大的编译器,使得理想可以灵活支持3D ViT等新型计算模块,而不必像使用供应商芯片那样受限于黑盒子般的固化硬件编码器。
4. 硬件层面对稀疏MoE模型进行了专门优化
加微信,进群深度交流理想实际经营情况与长期基本面。不是技术群,不是官方群,不是车友群。