2026 年 3 月 17 日,美国圣何塞,英伟达 GTC 大会现场。理想汽车基座模型负责人詹锟站在舞台中央,身后的大屏幕上显示着一行醒目的标题:"MindVLA-o1:开启全能范式"。
台下坐着的是全球最顶尖的 AI 专家、车企高管和投资人。他们清楚,这一刻可能成为自动驾驶发展史上的分水岭——不是因为又一家公司发布了新模型,而是因为自动驾驶的定义被彻底改写了。
詹锟在演讲中明确表示:"视觉、语言与行动统一的模型架构,已让相关系统从单一自动驾驶模型,逐步演化为面向物理世界的通用智能体。"
这句话背后,隐藏着一个万亿级市场的战略转向。
一、技术破局:为什么是现在?
1.1 行业瓶颈:传统方案走到尽头
过去五年,自动驾驶行业经历了一轮残酷的洗牌。从 Waymo 的激进扩张到 Cruise 的紧急叫停,从特斯拉 FSD 的争议不断到国内造车新势力的谨慎推进,整个行业都在寻找一个答案:如何让车真正理解复杂的世界?
传统技术方案存在两大根本性局限:
第一,感知与决策割裂。 早期的模块化架构将感知、预测、规划、控制拆分成独立模块,每个模块单独优化,但整体效率低下。就像一支没有指挥的乐队,每个乐手都很优秀,但合奏时却杂乱无章。
第二,2D 到 3D 的信息丢失。 主流的 BEV(鸟瞰图)方案将三维场景压缩成二维表示,虽然计算效率高,但丢失了关键的高度信息。想象一下,你只能看到地面的俯视图,却无法判断前方物体是悬空的树枝还是倒下的树干——这就是传统自动驾驶系统的困境。
OCC(占用网络)的出现部分解决了 3D 感知问题,但它缺少语义信息。系统知道"那里有东西",却不知道"那是什么"。这导致车辆在面对罕见场景时常常做出错误判断。
1.2 理想汽车的解法:原生 3D ViT
MindVLA-o1 的核心突破在于原生 3D ViT(Vision Transformer)视觉编码器。这项技术的创新点可以概括为三个"直接":
- 直接从视频流还原 3D 空间:不需要中间的 2D 压缩步骤,保留完整的位置、点云、语义和像素信息
- 直接融合多传感器数据:在训练阶段就融合摄像头的丰富语义和激光雷达的精准几何数据,而不是后期拼接
- 直接预测未来状态:通过引入前馈式 3DGS(3D Gaussian Splatting)表示,对静态和动态场景分别建模,实现场景演变的实时推演
用技术语言说,这是"端到端 3D 表征学习";用通俗语言说,这让车拥有了和人一样的三维空间直觉。
二、架构演进:从 VLM 到 VLA 的跃迁
2.1 技术路线图的三次迭代
回顾理想汽车的自动驾驶研发历程,可以看到一条清晰的技术演进路径:
2021 年:启动辅助驾驶自研,采用行业标准的模块化架构
2024 年:端到端 +VLM 双系统架构量产,首次实现跨场景统一理解
2025 年:VLA 司机大模型推送,整合空间理解、语言理解和行动决策
2026 年:MindVLA-o1 发布,构建完整的物理 AI 框架
这个过程中,有一个关键指标值得关注:VLA 指令累计使用次数。截至 2025 年底,这一数字达到 1225.4 万次,月使用率 80%。这意味着什么?
意味着这套系统不是在实验室里"养尊处优"的研究项目,而是经过百万级用户真实场景验证的量产技术。这种规模的数据积累,为 MindVLA-o1 的训练提供了无可替代的"燃料"。
2.2 VLA 架构的本质:具身智能的通用框架
VLA(Vision-Language-Action)不是简单的"三合一",而是一种全新的认知架构。它的核心思想是:感知、思考和行动应该是一个统一的整体。
传统 AI 模型通常是"单任务专家":识别图像的模型不会回答问题,回答问题的模型不能控制机械臂。而 VLA 模型通过学习多模态的联合表征,实现了跨任务的泛化能力。
这正是具身智能(Embodied AI)的关键。无论是自动驾驶汽车还是人形机器人,它们都需要在物理世界中完成"感知 - 思考 - 行动"的闭环。VLA 架构提供了一套通用的解决方案。
詹锟在演讲中提到:"基于同一套 VLA 模型,除车辆控制外,还可扩展至机器人领域。"这句话的潜台词是:理想汽车正在布局一个比造车更大的生意。
三、产业格局:物理 AI 时代的竞争规则
3.1 黄仁勋的判断:AI 进入工业化时代
在 GTC 2026 的主题演讲中,英伟达创始人黄仁勋提出了一个影响深远的论断:"AI 已从训练时代全面进入推理 + 智能体 + 物理 AI 的工业化时代。"
这个判断包含三层含义:
第一,重心转移。 AI 产业的焦点从"训练更大的模型"转向"让模型在真实世界发挥作用"。这就像互联网从"建网站"转向"用互联网改造各行各业"。
第二,Token 经济学。 黄仁勋强调,Token(AI 生成内容的基本单位)将成为 AI 时代的核心商品。未来的竞争不仅是算法的竞争,更是"每 Token 成本"的竞争。谁能够以更低的成本生产更多高质量的 Token,谁就能占据优势。
第三,基础设施重构。 数据中心不再是"存储和计算中心",而是"生产 Token 的工厂"。这意味着算力、能源、网络等基础设施都需要同步升级。
3.2 中国车企的机会窗口
在物理 AI 时代,中国车企面临前所未有的机会:
市场优势:中国拥有全球最大的新能源汽车市场和最复杂的道路场景,这为物理 AI 的训练提供了天然优势。
产业链优势:从电池、电机到芯片、传感器,中国已经形成了完整的新能源汽车产业链。理想汽车自研的"马赫 100"芯片性能较上一代提升 3 倍,就是例证。
数据优势:中国用户的数字化接受度高,愿意尝试新技术,这为大规模数据采集和模型迭代创造了条件。
但也必须看到挑战:高端 GPU 受限、基础理论研究薄弱、跨学科人才短缺……这些都是需要正视的问题。
四、商业前景:从自动驾驶到通用物理智能
4.1 短期变现:城市 NOA 的军备竞赛
2026-2027 年,搭载 MindVLA-o1 的车辆将陆续上市。届时,城市 NOA(导航辅助驾驶)将成为各大车企的标配功能。根据行业预测,到 2027 年,中国 L2+ 级智能驾驶渗透率将超过 50%,市场规模突破 3000 亿元。
这是一个确定性的增量市场。谁能提供更安全、更流畅、更拟人的驾驶体验,谁就能赢得消费者的青睐。
4.2 中期拓展:机器人赛道的降维打击
MindVLA-o1 的架构设计从一开始就考虑了跨设备复用。这意味着理想汽车可以将自动驾驶的技术积累快速迁移到机器人领域。
想象一下:一辆能够理解复杂路况的汽车,其感知和决策能力用于家庭服务机器人,会是怎样的体验?用于物流仓储机器人,会带来怎样的效率提升?
这可能是比特斯拉 Optimus 更现实的路径——从车轮上的智能到腿脚上的智能。
4.3 长期愿景:物理 AI 的基础设施提供商
理想汽车披露的物理 AI 框架包含四大模块:MindData 数据引擎、MindVLA-o1 多模态模型、MindSim 世界模型、RL Infra 强化学习基础设施。
这实际上是一套完整的"物理 AI 操作系统"。如果理想汽车能够将这套系统开放给第三方开发者,它将不再只是一家车企,而是物理 AI 时代的基础设施提供商。
参考英伟达的发展路径——从 GPU 厂商到 AI 计算平台——这个想象空间远超整车制造。
五、冷思考:技术狂热背后的理性审视
尽管 MindVLA-o1 展现了令人兴奋的前景,但我们仍需保持清醒:
第一,长尾问题仍未完全解决。 即使是最先进的模型,面对极端罕见场景时仍可能出错。物理世界的复杂性远超我们的想象。
第二,法规滞后于技术。 目前的交通法规和责任认定体系都是基于人类驾驶员设计的。当 AI 成为驾驶主体,法律框架需要重构。
第三,用户期望管理。 过度宣传可能导致用户对自动驾驶产生不切实际的期待,进而引发安全隐患。
技术进步不可阻挡,但商业化落地需要耐心。正如黄仁勋所说:"这是一条漫长的路,但我们已经看到了方向。"
结语:物理 AI 的起点,智能出行的拐点
MindVLA-o1 的发布,标志着自动驾驶从"辅助工具"向"智能伙伴"的转变。这不仅是技术的进步,更是认知的升级。
当汽车开始理解物理世界,当出行变得像呼吸一样自然,我们或许会回望 2026 年的这个春天,感叹那是一个新时代的起点。
而对于投资者、从业者和普通消费者来说,理解这场变革的逻辑,比追逐短期的热点更重要。因为真正的机会,永远属于那些看得懂趋势的人。
参考资料:
声明: 本文为原创深度分析,首发于微信公众号,未经授权禁止转载。欢迎转发分享。
互动话题: 你认为自动驾驶什么时候才能真正普及?欢迎在评论区留言讨论。