当前位置：首页>自动驾驶>英伟达的自动驾驶VLA: Alpamayo 1.5

英伟达的自动驾驶VLA: Alpamayo 1.5

2026-03-24 17:13:18

2025年英伟达GTC大会上，吴新宙讲解了英伟达的L3级自动驾驶系统NDAS（即NVIDIA DRIVE AV Solution），代号Alpamayo。2026年英伟达GTC大会上，英伟达则宣布了Alpamayo 1.5版VLA，有5亿和100亿参数两个版本。

图片来源：吴新宙GTC2025大会

第一版NDAS于2025年4月推出，2027年1季度将推出双Thor高速公路版L3，2027年底推出双Thor城郊Urban版L3。从上图也能看出即便配备了双Thor，英伟达依然推荐的是经典传统算法加端到端算法，即快慢双系统，快系统是经典传统算法，慢系统自然就是端到端算法，英伟达认为端到端至少要做到10Hz才算合格。

图片来源：吴新宙GTC2025大会

英伟达也对经典传统算法做了解释，即BEV提取图像特征，3D重建，矢量化全局表示，基于规则的规划和控制。

实际Alpamayo 是一个系统，包括物理AI数据集，VLA大模型和AlpaSim专为评估端到端模型设计的开源端到端仿真框架。数据集有1700小时，覆盖欧美25个国家2500个以上的城市，20秒的视频片段有306152个，激光雷达（1个，128线，360度旋转）片段则有298326个，毫米波雷达（10个）片段有160761个，整个数据集有133TB。

我们重点来看VLA大模型。英伟达2026年1月发布了论文Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail。

Alpamayo-R1架构

图片来源：英伟达

VLA分三个部分，第一部分是感知与自身状态输入，将物理世界的原始信号（视频、车身状态）压缩成 VLM 能“理解”的 Token。

视觉编码 (Vision Encoding)，Backbone: 外挂了 SigLIP (Sigmoid Loss for Language Image Pre-training)。相比于早期的 CLIP，SigLIP 在多图处理上的边缘对齐能力更强，参数量大约是4亿。
状态编码 (Ego-Status Encoding)，将车辆自身的速度、加速度、方向盘转角等数值，通过 MLP 映射到与 VLM相同的 Embedding（三角函数运算）维度，作为 State Tokens 拼接到输入序列中。
文本编码（Text Encoder），包含用户指令（User Commands）与高层导航指令（Navigation）。虽然看起来很像是一个感知模块，但实际上不是，这是 VLM的Backbone的一部分。

Cosmos-Reason1概览

图片来源：英伟达

第二部分是推理层，即名为Cosmos-Reason的VLM，这个VLM有70亿和560亿参数两个版本，其中70亿版本采用InternViT-676M-V2.5视觉编码器，阿里千问Qwen2.5-VL-7B为预训练模型，560亿参数版本采用InternViT-300M-V2.5视觉编码器，Nemotron-H作为LLM骨干。在Qwen2.5-VL-7B基础上大规模再训练post-training，在3.7M个视觉问答 (VQA) 样本上进行了再训练，以培养物理常识和具身推理能力，预训练数据中包含 24.7K 个专门针对驾驶场景的精选视频 VQA 样本。这些样本不仅包含场景描述和驾驶难度标注，还包含了通过 DeepSeek-R1 蒸馏出的、用于预测下一步行动的推理轨迹 (reasoning traces)。

然后是针对自动驾驶领域，即特定领域的监督微调 (Domain-Specific SFT)，跨域知识迁移：整理了涵盖多个“物理 AI”领域的补充数据集，包括自动驾驶、机器人、医疗保健、智慧城市、制造、零售和物流。这种广泛的训练旨在让模型获得通用的物理常识，从而能更好地迁移到驾驶场景中。驾驶数据增强：专门为自动驾驶增加了 100K 个新样本。这些样本包含对环境关键对象（Critical Objects）的标注以及对下一步行动的推理。在自动驾驶VLM的LingoQA测试集上得分66.2。

这里的Ours即Cosmos-Reason VLM。

70亿版本采用纯Transformer架构，560亿参数版本使用混合Mamba-MLP-Transformer架构。Transformer架构问世以来，已经彻底改变了语言建模领域，成为构建基础模型的事实标准。然而，它的自注意力机制的时间复杂度与上下文长度成二次关系。相比之下，Mamba架构引入了线性时间的序列建模方法，并采用选择性的状态空间模型，使其在处理长序列时更为高效。但Mamba的选择性状态空间可能不足以捕捉长序列中的每一个细节。为解决这一问题，在Mamba中嵌入了一部分Transformer层以进行长上下文建模，从而产生了混合的Mamba-MLP-Transformer架构。

Cosmos-Reason VLM两个版本配置

图片来源：英伟达

第三层是执行层，采用 “离散决策 + 连续修正” 的双重表征设计，解决 VLM无法输出平滑连续轨迹的问题，训练过程是离散分支 + 连续分支。

离散分支 (Discrete Action Head)，作用是粗粒度规划 (Coarse-level Planning)。将连续的轨迹空间离散化为 1024 个 Cluster (类似于 VQ-VAE 的 Codebook)。VLM 像生成文本一样，自回归地预测出代表轨迹形状的 Token 序列。目的是让 Transformer 能够利用其擅长的概率预测能力，决定“大概怎么走”（比如：左转、急刹、缓行）流匹配动作专家 (Flow Matching Action Expert)，作用: 细粒度精修 (Fine-grained Refinement)。机制: Flow Matching (流匹配)。这就好比是一个轻量级的 Diffusion Model，但速度更快。Input: 它接收两个输入：从标准高斯分布采样的噪声x0x_0x0，Conditioning: 来自 VLM 输出的离散 Action Token 的 Embedding（即 VLM 的“意图”）。Process: 它通过求解常微分方程（ODE），将噪声“流”向目标轨迹分布。Output: 输出符合单车动力学 (Unicycle Dynamics) 的连续轨迹点 (x,y,h)(x, y, h)(x,y,h) (位置 + 航向角)。

传统的 Diffusion 生成步骤太多（50-100步），推理太慢。Flow Matching 使用 Straight Vector Fields (直线向量场)，可以在极少的步数内（甚至 1 步）生成高质量轨迹，完美契合车载端的实时性要求。

Alpamayo-R1训练管线

图片来源：英伟达

Alpamayo-R1训练管线，第一部分是动作模态注入。在训练过程中，通过离散token 将动作模态注入到 VLM 中，并使用交叉熵损失函数，基于定义的训练 token 序列来训练 VLM。根据基于控制的表示，每条轨迹由 64 个路径点组成，每个路径点有两个量化值（加速度 𝑎_𝑖 和曲率 𝜅_𝑖），因此每条轨迹共有 128 个离散 tokens。这些 tokens 使用一组专门用于动作表示的特殊 tokens 进行编码。

第二部分是SFT，主要是为了引发推理能力，为此英伟达构建了一个名为Chain of Causation (CoC)数据集，并开发了一种人工和电脑自动化的混合标注，其中人工标注占10%，自动化标注占90%。

第三部分是强化学习，主要是应对长尾场景，也为了增加泛化能力。

图片来源：英伟达

数据集的构建和标注流程有5步，首先是挑选出高价值片段clip，并非所有路段都值得标注。系统只挑选包含显式驾驶决策的片段（如绕行施工、减速让行、红绿灯起步）才做标注。平直空旷道路的数据会被过滤放弃，因为含金量太低。然后是挑选关键帧，对于“绿灯起步”，关键帧是灯变绿的瞬间；对于“让行VRU（弱势交通参与者）”，关键帧是减速动作发生前的 0.5秒。让模型学习在“动作发生前”进行预判，而不是事后诸葛亮。

再后是提取关键要素Label Critical Components，只人工标注导致当前决策的物体，忽略无关背景。人工标注分两步走。第一步只能看历史视频标组件（0～2s，防止利用未来信息），第二步看完整视频标决策（0～8s）。再后是将复杂的驾驶行为拆解为结构化的纵向 + 横向 meta（原子）决策并标注。将视频、轨迹和meta动作喂给GPT-5，90%的片段让GPT-5做自动标注。最后构建因果链。

CoC的GPT-5做的自动标注

图片来源：英伟达

来源：英伟达

英伟达在实车和仿真平台AlpaSim做了测试，由于很少有人使用英伟达仿真平台AlpaSim，所以没有办法横向对比。上表就是测试数据，开环测试意义不大，关键是闭环测试，我们也能看出100亿参数版本比5亿参数版本的性能还是要高很多，基本上是一倍的差距。

来源：英伟达

英伟达基于RTX6000 Pro Blackwell计算平台部署了Alpamayo-R1，英伟达未点明VLA参数，应该是100亿参数版本，因为5亿参数版本耗时应该比这个低很多。视觉编码耗时都是3.43毫秒，预填充耗时16.54毫秒，推理解码耗时70毫秒，流匹配轨迹解码耗时8.75毫秒，总计99毫秒，英伟达认为这个耗时可算实时性能。不过上面的表有一点令人疑惑，Alpamayo-R1没有使用自回归轨迹解码，而是扩散，应该与扩散做对比。

RTX6000 Pro Blackwell有服务器版本和工作站版本，工作站版本的RT核心性能略高于服务器版本，除此外AI性能都完全一致，即FP4精度下稀疏算力达4000TOPS，基本上是Thor-X的两倍性能，是Thor-U的三倍差不多。

不过存储带宽远高于Thor-X，RTX6000 Pro Blackwell采用96GB的GDDR7，存储位宽高达512bits，存储带宽高达1597GB/s，几乎是Thor-X的六倍，加上RTX6000 Pro Blackwell是独立CPU+独立GPU结构，CPU常见的是Intel Xeon W5-2455X，这样的设计比Thor-X这种SoC效率要高出数倍，如果用Thor-X部署100亿版本的Alpamayo-R1，估计一次推理耗时至少是600-1000毫秒，如果是Thor-U的话，估计是1000-1500毫秒，如果是5亿版本，估计Thor-X还能做到100毫秒。

快慢双系统应该是最佳选择，但这样显然无法在宣传口径上取得制高点，VLA前路漫漫，还有很长的路要走。

免责说明：本文观点和数据仅供参考，和实际情况可能存在偏差。本文不构成投资建议，文中所有观点、数据仅代表笔者立场，不具有任何指导、投资和决策意见。

更多报告

AI机器人
AI机器人	主机厂与供应商布局具身智能	具身智能与人形机器人市场研究
汽车与机器人的VLA大模型应用	触觉传感器研究
灵巧手研究	机器人控制器研究
群体智能与机器人协同应用研究	通信网络及芯片研究

云端和AI
车云	自动驾驶地图	V2X和车路云一体化
OTA研究

动力层
动力	混合动力报告	汽车电源管理IC和信号链芯片
800-1000V高压平台	电驱动与动力域研究
SiC/GaN研究	12V/48V低压锂电/钠电行业研究
热管理	汽车热管理系统
其他	智能执行器与微电机研究

电子电气架构层
E/E架构框架	E/E架构	汽车电子代工
48V低压供电网络
智驾域	自动驾驶SoC
座舱域	座舱SoC	座舱域控
车控域	车身(区)域控研究
通信/网络域	中央+区域通信网络及芯片	高精度定位
下一代通信及模组研究
跨域融合	跨域融合策略及创新功能场景研究
其他芯片	汽车MCU研究	汽车芯片供应链研究
车载存储芯片	车载射频SoC研究

智舱系统集成和应用层
智能座舱应用框架	智能座舱Tier1	座舱设计趋势
自动驾驶算法和系统	汽车冗余系统

OS和支撑层
SDV框架	SDV：软件定义汽车	SDV： SOA与中间件
信息安全/功能安全	功能安全研究	汽车功能安全

其他宏观
车型平台	车企模块化平台
政策、标准、准入	智能辅助驾驶法规和汽车出海

「AI与机器人月报」

「联系方式」

手机号同微信号

产业研究部丨赵先生 18702148304

推广传播部｜杜先生 13910162318

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

英伟达的自动驾驶VLA: Alpamayo 1.5

最新文章

热门文章

随机文章

英伟达的自动驾驶VLA: Alpamayo 1.5

Electronics 特刊征稿:自动驾驶与高速公路智能管理系统

自动驾驶热潮再度兴起,十年愿景能否落地成真?

最新文章

热门文章

随机文章