6月初,英伟达在GTC台北大会上扔下了一颗重磅炸弹——Alpamayo 2 Super,一个320亿参数的自动驾驶世界模型。这是目前全球参数量最大的开源自动驾驶大模型。英伟达CEO黄仁勋在主题演讲中称其“标志着汽车从'单纯驾驶'迈入'安全推理'。”,并宣布模型权重和代码已全面开源。
从技术层面看,320亿参数意味着什么?一年前,行业还在为10亿参数的自动驾驶模型争论不休;半年前,英伟达发布的上一代Alpamayo模型将参数推至150亿,已经引发了一场关于“大模型在物理世界有没有用”的争论;而这一次,320亿的参数规模已经超过了大多数开源语言大模型。这不仅是量变,更是英伟达对“自动驾驶应该怎么学”这一根本性问题的明确站队——它不只是单点看一个场景,而是开始构建对物理世界的整体理解。
但这条新闻真正的分量远不止技术参数的跃迁。放在2026年上半年的行业语境下——端到端路线与VLA路线正在合流、头部车企自研大模型加速、物理AI成为行业热词——英伟达在这个时间点推出开源自动驾驶大模型,本质上是在对产业进行一次战略性的信号释放。它试图回答三个核心问题:自动驾驶的技术路线之争走到哪了?一个芯片公司为什么要做大模型?以及,开源对正在激烈竞争的自动驾驶产业意味着什么?
从“看得见”到“想得通”,世界模型正在改写游戏规则理解Alpamayo 2 Super的意义,不能只盯着320亿这个数字,而是要理解它的定位——世界模型。
当前的自动驾驶主流算法架构,本质上是“看见A就做B”的模式识别。系统看到前方有一个行人,预测他会横穿马路,然后刹车。这种“感知-预测-规划”的串行流程在过去几年里不断被优化,但有一个根本性的天花板——系统只在“学习相关性”,而不是“理解因果性”。它知道“有人横穿马路要刹车”,但不知道为什么,也不知道如果地面湿滑时刹车距离会延长多少。
世界模型的底层逻辑则是:让AI不再只是被动地识别和反应,而是能够在“脑中”推演物理世界的因果规律。一个理想的世界模型不仅能识别“前面有一个皮球滚过”,还能推演“后面可能跟着一个追球的孩子”;不仅能判断“现在是晴天”,还能预测“接下来十分钟会不会突然下雨”。这种从“模式匹配”到“因果推演”的跨越,才是世界模型最核心的技术愿景。
英伟达的Alpamayo 2 Super正是在这一方向上迈出了一步。根据发布会披露的信息,该模型在海量驾驶视频和仿真数据上进行预训练,同时新增元动作(Meta-Action)输出,可自主让行、变道、驻车等宏观高阶驾驶指令,甚至对天气变化、光照变化等环境动态具有鲁棒性。它的输出不是单一的动作指令,而是一段包含多种可能性的未来场景预测。这意味着,自动驾驶系统可以从“当前时刻应该怎么做”的决策层面,升级到“未来几秒可能发生什么”的认知层面。
但这条路并没有完全走通。世界模型当前最大的技术瓶颈在于“幻觉”问题——就像语言大模型偶尔会一本正经地胡说八道一样,世界模型生成的未来场景也可能出现“物理上不可能”的画面。一辆车不可能悬浮在空中,一个行人不可能在0.1秒内横穿马路。这些“幻觉”在语言模型中可能只是闹笑话,在自动驾驶中却可能直接导致安全事故。英伟达在发布会上并未详细披露Alpamayo 2 Super在“幻觉抑制”方面的具体指标,这也将是行业接下来关注的重点。
端到端和VLA在合流,英伟达把赌注押在了下一个路口Alpamayo 2 Super的发布,也让年初以来白热化的路线之争有了新的变量。
过去两年,自动驾驶算法路线上分裂出两大阵营:一派押注VLA,认为视觉-语言-动作模型是通往高阶自动驾驶的唯一路径,核心逻辑是把语言大模型的认知推理能力嫁接到驾驶系统上,让AI先“理解”场景里发生了什么,再决定做什么;另一派押注世界模型+强化学习,认为车不应该只处理当前画面,而应该在云端预演未来几秒会发生什么,带着“预判”去开车。华为、Momenta、文远知行等企业已公开站队世界模型路线,轻舟智航、卓驭科技等则力推VLA方案。英伟达此前发布的Alpamayo 1.0版本也是世界模型路线的代表作。
但2026年4月北京车展前后,一个肉眼可见的变化是:这场争论正在收敛。文远知行的方案将世界模型与VLA融合,轻舟智航的云端世界模型和车端世界行为模型同样采用了融合架构,卓驭的“原生多模态基础模型”则试图将所有模态在预训练阶段一并加入,让模型“天生的”在多种模态共同空间里理解物理世界。
英伟达的Alpamayo 2 Super恰好处在这样一个节点上。从技术架构看,它不只是一次参数规模的线性升级,而是展示了一条可能的融合路径:世界模型负责时空推演和因果推理,VLA负责语义理解和意图预测,两者不再是互斥关系,而是协同组件。英伟达在GTC台北的演讲中强调,Alpamayo 2 Super能够“同时处理视觉、语言和动作三大模态”,本质上也是在为这种融合趋势提供底层技术支撑。
英伟达的野心不在于亲自下场造车,而在于定义自动驾驶训练的“标准范式”。一旦世界模型成为自动驾驶公司的标配基础设施,英伟达的GPU就将成为不可或缺的算力底座。从这个角度看,开源Alpamayo 2 Super不是做慈善,而是在为英伟达的算力生态铺设“标准轨距”。
Alpamayo 2 Super最值得关注的策略选择,不是320亿参数,而是开源。
英伟达CEO黄仁勋在GTC台北演讲中强调,“世界模型必须开放,让全球开发者一起解决安全对齐和通用性问题”。这句话听起来很大气,但背后的商业逻辑清晰可见。
自动驾驶行业长期面临一个“数据孤岛”困境:每家车企和自动驾驶公司都在用自己的专有数据训练模型,数据互不相通,导致行业整体的技术迭代效率低下。英伟达选择将Alpamayo 2 Super开源,本质上是在打破这种孤岛效应——让更多开发者基于同一个世界模型基座进行微调和适配,从而形成一个围绕英伟达技术栈的开发者生态。
这种做法的长远回报清晰可见。一旦全球的自动驾驶公司都习惯用英伟达的开源模型作为研发的起点,它们就自然被锁定在了英伟达的生态系统里。任何试图迁移到其他芯片平台的努力,都将面临模型适配和工具链兼容的巨大成本。
更深层的影响在于,开源正在降低自动驾驶行业的准入门槛。一个320亿参数的世界模型,如果完全自研,需要的算力、数据和人才投入是天文数字。英伟达将其开源后,中小型自动驾驶公司和车企可以用更少的资源快速搭建自己的自动驾驶系统。这短期内对英伟达的芯片销售是利好——更多的开发者意味着更多的GPU需求。但长期来看,开源也在加速行业的内卷化——当技术门槛被拉低,竞争将更多地从“谁能做出来”转向“谁做得更好、更安全、更便宜”。
英伟达对开源的商业逻辑显然有过精确计算。在GTC大会上,英伟达同步发布了基于Blackwell架构的DRIVE AGX Thor平台,算力达到2000 TOPS,专为大模型推理优化。开源模型吸引开发者,开发者的需求拉动芯片销售,芯片的规模效应进一步降低成本——这个飞轮一旦转起来,后来者要追赶的成本将指数级上升。
320亿参数的Alpamayo 2 Super令人振奋,但参数本身不是护城河。在世界模型真正成为自动驾驶的“大脑”之前,还有三道关键的门槛需要跨过。
第一道坎是“幻觉抑制”。语言模型的幻觉可以用人类反馈来纠正,世界模型的幻觉却可能直接导致安全事故。英伟达在发布会上提到,Alpamayo 2 Super通过Chamj 4D和DSC等数据约束技术进行了安全对齐,但在真实开放道路上的表现仍需要大规模验证。
第二道坎是“计算效率”。一个320亿参数的模型,在数据中心训练是可行的,但要部署到车端的有限算力平台上,需要大幅度的剪枝、量化和蒸馏。英伟达CEO黄仁勋提出的“三台电脑”解决方案——车端推演、云端训练、模拟验证——仍然依赖强大的云端算力支撑,端侧部署的效率优化还有很长的路要走。
第三道坎是“评估标准”。语言模型有BLEU、ROUGE等标准评测,但世界模型目前缺乏统一的评估体系。如何判断一个世界模型“对物理世界的理解”是否准确?是通过生成的未来场景的真实性?还是通过下游驾驶任务的成功率?行业尚未形成共识。没有统一的“考卷”,就很难判断谁的“答案”更好,这也会影响监管机构对世界模型安全性的认证标准。
英伟达发布Alpamayo 2 Super,表面上是向全球开发者开放了一个320亿参数的自动驾驶大模型,但更深层的影响正在重塑行业格局。
它证明了世界模型的技术可行性——从“感知-反应”到“预判-推理”的范式迁移正在获得底层的技术支撑。同时,开源策略让英伟达占据了自动驾驶基础设施的生态位——模型定义标准,芯片提供算力,开发者贡献创新,三者形成闭环。
对于行业而言,Alpamayo 2 Super的发布将加速两条路线的合流:世界模型和VLA不再是互斥的选项,而是可以被整合进同一个基座模型的互补能力。对于中国自动驾驶产业来说,这既是机遇也是挑战——机遇在于开源降低了自研门槛,挑战在于底层算力和生态依赖可能加深。
2026年,自动驾驶行业正在从“算法定义汽车”走向“模型定义汽车”,而英伟达通过开源世界模型,正在试图定义这个新时代的基础设施标准。这不仅仅是技术的较量,更是生态的博弈。谁能围绕世界模型建立起最大的开发者社区、最完善的工具链、最兼容的芯片生态,谁就能在这场“定义权”的争夺中占据先手。