元戎启行的 40B VLA 自动驾驶基座模型和方法论

元戎表示其引入了 KV Cache（历史特征免重复计算，这个理想在本次GTC也表示采用了，具体可以看我们理想GTC 2026文章）、多 Token 预测（MTP）、量化技术以及定制化的推理引擎，将包含 1000 个视觉 Token 和数十个推理 Token 的单步处理延迟严控在 60-85 毫秒以内。

此外，基座大模型可以根据车端芯片算力进行灵活“蒸馏”：在 100 TOPS 平台上部署纯驾驶的 VA 模型，在 500 TOPS 平台上即可部署带有逻辑推理能力的 VLA 模型。

自动驾驶软件与数据方法亮点

在软件和数据工程层面，元戎彻底重构了数据闭环和仿真系统，解决了“无聊数据损害模型”和人工介入效率低下的行业痛点：

1. 大模型全面接管的极速数据闭环传统的数据闭环（发现问题、诊断、挖掘、标注、训练）严重依赖人工或小型规则模型，一个循环往往耗时 5 天（100 小时以上）且能力无法沉淀。元戎直接利用前文提到的基座大模型（其分析师和裁判能力）接管了数据挖掘、自动诊断、思维链（CoT）标注以及动作评分等全流程。这不仅将闭环周期从 5 天极速缩短至 12 小时，更重要的是，闭环过程中产生的所有人工 Review 和机器标注结果，都会沉淀为大模型中端训练的新养料，实现 AI 能力的飞轮递增。

2. 突破长尾场景的数据合成技术面对现实中难以收集的罕见高危场景（Long-Tail Scenarios），元戎采用了先进的生成式与合成技术：

3D 重建与风格迁移：利用 Nvidia 的 3D GUT 进行高保真重建，并用 Cosmos 模型实现天气和光照的风格迁移，将一个白天的素材转化为雨天或夜间的变体。

DiPIR 插入式编辑：这是元戎自研的技术，能够将生成的 3D 行人、骑行者或动物（如公路上突然窜出的羊）无缝插入到真实的道路视频中，并自动匹配光照和阴影，系统性地批量生成“极其危险且难以捕捉”的训练数据。

3. 仿真环境下的强化学习（RL）自我进化在仿真回测中，元戎的模型不再单纯依赖人工标准答案（在极端场景下人类也很难标注出完美轨迹）。基座大模型可以在重建的仿真场景中自己“采样（Rollout）”出多条不同的驾驶解决方案（比如遇到违规加塞时，是选择体感不佳的急刹，还是选择横向避让）。随后，模型内部的“评论员（Critic）”会结合预设的安全和舒适度规则，对这些轨迹进行行为分析和评分。通过这种闭环强化学习（RL Policy Optimization）的持续迭代，模型能够在极其复杂的边缘场景中输出更安全、更精准的决策。

以上就是元戎启行在本次GTC 2026分享的核心内容，欢迎留言交流更多核心背后的算法信息。

参考资料以及图片

1. Redefining the Boundaries of Autonomous Driving with Foundation Model -元戎启行曹通易

*未经准许严禁转载和摘录

END

✦

大会推荐

✦

4月21-22日，智猩猩主办的2026中国生成式AI大会将举行，设有开幕式，AI算力基础设施、大模型、AI智能体3大专题论坛，以及OpenClaw、LLM强化学习、大模型记忆等6场技术研讨会。其中，OpenClaw最强轻量平替nanobot团队负责人黄超、Claw-R1项目负责人程明月等学者专家将带来报告分享。

✦

入群申请

✦

智猩猩矩阵号各有所长

点击名片即可关注

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

元戎启行的 40B VLA 自动驾驶基座模型和方法论

最新文章

热门文章

随机文章

元戎启行的 40B VLA 自动驾驶基座模型和方法论

“AI春晚”GTC开幕前夜:老黄带货自动驾驶,现场还可“装龙虾”

车路协同落地困局:政府为何成了自动驾驶的“风险兜底方”

最新文章

热门文章

随机文章