6月4日,CVPR 2026在美国丹佛开幕。特斯拉自动驾驶与Optimus双线负责人Ashok Elluswamy登台,演讲题目只有一句话:Building Foundational Models for Robotics at Tesla。
这句话的含义远比字面沉重——特斯拉要做的,不是让车自己开,而是让所有机器人共用一个大脑。
Elluswamy在演讲中首次系统披露了特斯拉"统一基础模型"的技术路线图:同一套基础模型,同时支持自动驾驶FSD、Optimus人形机器人和数字Optimus(虚拟仿真场景),无需为不同场景单独训练模型。通过统一多场景数据训练,模型学习效率可提升1.5倍。FSD训练得到的驾驶能力和环境推理能力,可以直接迁移到Optimus机器人上。
在硬件层,这套模型部署在特斯拉自研AI4芯片上,一台设备可同时处理自动驾驶和Optimus的推理任务,无需额外算力。
这是特斯拉的全栈自研优势——从芯片、模型架构、训练框架到应用场景,整个技术栈不依赖任何外部供应商。在行业普遍依赖NVIDIA GPU、OpenAI模型、第三方框架的背景下,特斯拉走了一条完全不同的路。
FSD V14的技术细节同样值得关注。端到端大模型接收的输入规模巨大——7路摄像头×36FPS帧率×500个特征点×30秒历史轨迹×5×5感知网格,加上100Hz车辆运动数据和48kHz音频数据,总输入约200亿个Token。最终只输出2个Token:转向角度和行驶速度。
从200亿到2,这就是端到端的暴力美学。
为解决开环训练的泛化不足,特斯拉训练了专门的"世界模拟神经网络"——根据当前车辆状态和驾驶决策,预测下一时刻环境状态,再回到策略神经网络验证决策合理性,形成闭环训练体系。在安全验证上,模型引入了思维链推理和形式化证明能力,输出驾驶决策的同时自动验证安全性,并同步输出3D占用网格、场景流、交通参与者预测等多维度可解释性结果。
数据方面,FSD累计完成超130亿英里全场景路测。特斯拉宣称开启FSD后每行驶890万英里才发生一次碰撞,安全性达到人类驾驶员的5-6倍。
Elluswamy在演讲末尾明确提出:"特斯拉是真实世界AI与机器人领域的最佳落地平台。" 所有技术基于真实场景数据训练,而非实验室仿真。
自动驾驶只是第一个练兵场。特斯拉的真正野心,是把这套统一基础模型推广到所有具身智能产品——Optimus机器人、智能座舱、Robotaxi、乃至尚未公开的未来产品形态。
一个模型,管所有的机器人。 如果这个愿景成真,特斯拉将从一家车企,变成一家真正意义上的机器人公司。
(本文信息综合自OFweek、雷锋网、腾讯新闻、雪球、电子发烧友)