
Hardware Co-Design讲的是如何在一颗给定的自动驾驶芯片上,找到一个AI大模型的最优架构设计方案。
优化的终极目标是在确保响应速度足够快、内存占用足够小的两个硬性前提下,尽可能地提升模型的智能水平。
模型越深,通常能力越强。宽度和稀疏度并非独立起作用,它们之间存在复杂的耦合关系,需要协同调整才能达到最优。
KV缓存维度对模型最终精度的影响相对较小,对内存占用的影响却很大——这是一个典型的对性能帮助不大但对资源消耗影响很大的参数,在设计时需要谨慎权衡。
在当前的边缘计算芯片上,大语言模型的推理过程大多处于访存瓶颈状态,即内存带宽是主要限制因素。
反直觉但至关重要的结论,在内存受限的边缘设备上,模型设计得越宽,其最佳的稀疏度反而应该越高(即每次激活的专家比例越低)。
即与其把有限的内存预算全部用来增加宽度,不如同时增加总专家数但减少每次激活的数量,用更多但更稀疏的专家来换取更高的模型容量。
更加量化的解释详见理想用四组数学公式分享对自动驾驶芯片软硬协同设计的理解,读者不用被里面的数学公式吓到,TOP2做了详细解释,多看几遍能看懂的。
LinkVLA讲的是将action token定义为离散化的BEV空间坐标,使动作不是LLM的输出结果,而是LLM的原生语言,让LLM具备了直接操纵物理空间的能力。
MindVLA-o1提出的在单一 Transformer 中联合建模感知、推理与控制的Omni 架构。在LinkVLA中,理想通过将语言和动作token统一到一个共享的离散码本(Shared Discrete Codebook)中,并在单一多模态模型中处理。
更细化解读详见没有标题党, 理想系统性重构语言-动作模型理想对VLA的处理思路有可能发生了本质变化

