2026年3月17日,NVIDIA GTC大会。
理想汽车基座模型负责人詹锟站上演讲台,向全球开发者宣布了一个重磅消息——
理想汽车下一代自动驾驶基础模型MindVLA-o1正式发布。
这不是一次普通的模型升级。
詹锟说了一句话,让整个行业都震惊了:
“当我们把视觉、语言和行动统一到一个模型中时,它已不再只是自动驾驶模型,而是在逐渐演化为面向物理世界的通用智能体。”
换句话说,理想汽车要做的,不只是一个能开车的AI,而是一个能理解物理世界、能行动的通用智能体。
自动驾驶,只是起点。
一、MindVLA-o1:五大技术创新
MindVLA-o1的核心架构是 原生多模态MoE Transformer,通过五大技术创新,构建了面向物理世界智能的自动驾驶基础模型。
五大技术创新:
1. 看得更远:3D空间理解
传统自动驾驶模型主要依赖2D图像识别,但真实世界是3D的。
MindVLA-o1采用了以视觉为核心的 3D ViT Encoder(3D视觉模型编码器),并利用激光雷达点云作为三维几何提示,引导模型理解真实空间结构。
同时引入前馈式3DGS表示,将场景拆分为静态环境与动态物体分别建模,通过下一帧预测作为自监督信号,使模型具备3D空间理解能力。
结果:模型看得更远、感知更精准。
2. 想得更深:多模态思考
自动驾驶不仅要理解当前环境,还要预测未来几秒的场景演化。
理想汽车引入了 预测式隐世界模型,在隐空间中高效模拟未来。训练分三阶段:
- 用海量视频数据预训练Latent World Token,构建未来表征
- 在MindVLA-o1中持续世界模型的推演,形成隐空间的未来推理能力
- 将世界模型、多模态推理能力及驾驶行为进行联合训练与对齐
结果:模型能在隐空间中提前“想象”未来画面,将驾驶决策具象化。
3. 行得更稳:统一行为生成
MindVLA-o1使用 VLA-MoE(混合专家模型)架构,并引入专门的Action Expert(动作专家),从3D场景特征、导航目标、驾驶指令等多维输入中提取信息。
为满足实时性要求,系统采用 并行解码,同时生成所有轨迹点,大幅提升效率。
最后引入 Discrete Diffusion(离散扩散)进行多轮迭代优化,确保轨迹空间连续、时间稳定,并符合车辆动力学约束。
结果:模型行得更稳,驾驶体验更流畅。
4. 进化更快:闭环强化学习
理想汽车构建了闭环强化学习框架,让模型不仅能从真实数据学习,还能在 世界模拟器(World Simulator) 中持续探索和优化策略。
这意味着,模型可以在虚拟环境中“试错”,不断进化,而不必冒真实世界的风险。
结果:模型进化速度大幅提升。
5. 部署更高效:软硬件协同设计
理想汽车团队评估了近 2000种模型架构配置,在英伟达Orin与Thor平台上完成验证,找到了模型精度与推理延迟之间的Pareto Front(帕累托前沿)。
通过软硬件协同设计,将架构探索时间从数月缩短至数天,大幅提升端侧VLA模型的设计与部署效率。
结果:模型部署更高效,车端推理更快速。
二、自动驾驶只是起点
詹锟在演讲中说了一句意味深长的话:
“基于同一套VLA模型,不仅可以控制车辆,也能够扩展到机器人。自动驾驶只是物理AI的起点,未来这类基础模型将驱动新的具身智能范式。”
这句话的潜台词是:
MindVLA-o1不是一个单纯的自动驾驶模型,而是一个面向物理世界的通用智能体基础模型。
今天它能开车,明天它就能控制机器人、操作机械臂、在物理世界中完成各种任务。
这才是理想汽车的真正野心——打造具身智能的“数字大脑”。
三、为什么是理想汽车?
在自动驾驶领域,理想汽车一直是“后来居上”的代表。
从最早的NOA(导航辅助驾驶),到后来的城市NOA,再到如今的MindVLA-o1,理想汽车的智驾能力在快速进化。
这次发布MindVLA-o1,有几个重要意义:
1. 技术路线领先
统一VLA模型是当前自动驾驶领域的前沿方向,特斯拉、Wayve等都在探索。理想汽车率先发布量产级VLA模型,技术路线领先。
2. 端到端闭环
从感知、决策到控制,MindVLA-o1实现了真正的端到端,不再依赖人工规则,完全由数据驱动。
3. 可扩展性强
模型架构设计考虑了向机器人等具身智能场景的扩展,未来想象空间巨大。
四、写在最后
2026年,被称为“Agent元年”。
OpenClaw的爆火,让人们看到了AI Agent的潜力。
而理想汽车的MindVLA-o1,则让人们看到了 物理世界AI Agent 的可能性。
当AI不再只是聊天、写代码,而是能够感知物理世界、做出决策、采取行动——这才是真正的通用人工智能。
理想汽车,正在这条路上狂奔。
MindVLA-o1发布,理想汽车不只是造车而是要打造物理世界的通用智能体
自动驾驶只是起点,具身智能才是终点转发出去,让更多人看到这个重磅消息
#理想汽车#MindVLA#自动驾驶#具身智能#深度好文