当前位置：首页>自动驾驶>特斯拉CVPR 2026:把自动驾驶压成“两个token”,然后复制到所有机器人身上

特斯拉CVPR 2026:把自动驾驶压成“两个token”,然后复制到所有机器人身上

2026-06-09 02:43:51

北京时间6月4日凌晨，CVPR 2026在美国丹佛开幕。特斯拉自动驾驶与Optimus双线负责人Ashok Elluswamy登上了“具身智能基础模型部署”专题工作坊的讲台，演讲标题简洁到只有一句话：*Building Foundational Models for Robotics at Tesla*。

标题是老的，slides里不少内容也似曾相识。但在今年的版本里，Elluswamy给出了几组此前未曾公开的数据，并首次系统性地拆解了特斯拉端到端模型面临的“三道关卡”及其解法。整场演讲的内核可以用一句话概括——特斯拉不认为自己是在做“自动驾驶”，而是在为所有机器人构建一个统一的基础模型。车，只是第一个身体。

三条线，一个大脑

演讲开场，Elluswamy把特斯拉的AI版图摊在一页幻灯片上：三条产品线，共享同一套基础模型内核。

第一条是Self-Driving，可规模化的车辆自治。第二条是Optimus，面向物理世界的人形机器人。第三条被称作Digital Optimus，一个端到端的电脑操作智能体——现场演示里，它直接听懂“帮我清空first touch收件箱”，然后自己完成了所有点击操作。

Elluswamy强调，这三件事看起来是三个产品，本质上却是同一个基础模型在不同“身体”上的投影。他给整场演讲定的使命只有一句：通过通用机器人把人类从重复性体力劳动中解放出来，创造“极度丰裕”。

130万辆车，108亿英里

这次更新的一个重要数据是部署规模。

截至演讲时，全球已有约130万辆具备监督式自动驾驶能力的特斯拉在路上。FSD累计行驶里程超过108亿英里，其中城市道路约40.7亿英里。交付区域覆盖北美、欧洲部分国家和亚太多个市场，中国位列已交付区域之中。

这组数字是理解特斯拉技术路线的基础。后面所有的论证——为什么端到端、为什么强调数据规模、为什么走神经模拟路线——都建立在这个百万级车队持续回传真实数据的假设之上。

安全性数据也被拿来作为佐证。按照“发生一次重大碰撞前能开多少英里”的口径，FSD（监督版）在高速场景下每890万英里才发生一次重大碰撞，城市道路为290万英里，均远高于全美平均水平（高速150万英里、城市50.5万英里）。北美全路况综合口径下，FSD的成绩是510万英里，对比全美平均的69.9万英里。

硬件：自研AI4，车与机器人共用

一个容易被忽略但很重要的细节：目前FSD和Optimus都跑在特斯拉自研的AI4推理芯片上，采用双计算机并行运行、互相校验的冗余架构——一台出问题，另一台瞬间接管。

这意味着特斯拉在车端部署的算力平台，与机器人端的算力平台是同一套硬件体系。从工程角度看，这是“一套基础模型覆盖多种平台”的前提条件。芯片架构师可能会对这套设计的功耗、带宽和故障切换机制感兴趣，但从产品层面看，核心信息就是：特斯拉已经在底层打通了车与机器人之间的硬件壁垒。

把自动驾驶压缩成“2个token”

整场演讲最核心的部分，是Elluswamy对端到端架构的系统性阐述。

特斯拉的端到端模型结构并不复杂：多模态输入（摄像头视频、导航指令、车辆运动学、音频）喂进一个大网络，36Hz运行，直接吐出下一步控制动作。没有手写规则，没有中间表示的硬切分。

但他现场算了一笔此前鲜少被公开的数据账。输入端：7路摄像头×36帧/秒×500万像素×30秒历史缓冲，再除以5×5像素块——仅视频输入的上下文就达到约20亿个token。再加上导航地图、100Hz运动数据、48kHz音频。

而输出端只有2个token：下一步的转向角度和加速度。

“学会从20亿个token中正确映射到2个token”，这就是Elluswamy眼中自动驾驶的本质问题。他称之为“维度灾难”，并给出了判断：应对维度灾难的唯一解，是规模化的车队数据。

这引出了特斯拉对数据的两个核心诉求：一是极强的泛化能力，二是“主动安全”——模型必须在罕见、危险的长尾场景里提前做出预判。现场播放了一段视频：城市道路上，一个骑车的孩子突然摔倒滚向车道，系统提前减速避让。Elluswamy点了一句：“这种场景人工根本造不全，只能靠真实车队捞回来。”

三道关卡：可解释性、评估与闭环模拟

端到端模型最大的质疑是“黑箱”。Elluswamy对此的回应是用思维链和过程验证来破解。

特斯拉的模型在输出动作的同时，会同步预测一组“可被人读懂”的中间结果：3D占据与流、物体检测（车辆/行人/骑行者）、交通管制状态、道路边界与车道语义、各交通参与者的交互概率，以及——用自然语言表达的决策理由。

现场演示了一个长尾场景：车辆遇到前方施工封闭加改道标志。系统用一问一答的链条自我推理：“能直行走导航路线吗？→不行，前方有改道牌和施工护栏。→那该怎么走？→在这个路口左转。→为什么不右转绕？→因为改道牌指示向左。”每一步都标注了对错。

第三道关卡——评估——被Elluswamy称为“三道关卡里最难的一道”。原因是开环做得好不保证闭环也好，避免一次事故有多种正确解法，指标必须能容纳这种“多模态”。好的数据集和loss值，不足以代表真实性能。

特斯拉的解法是训练一个神经网络世界模拟器。它接收“当前状态+动作”，预测“下一时刻状态”（摄像头画面、导航、运动学、音频），再喂给策略网络产生下一步动作——形成一个完全在神经网络内运转的闭环。这个模拟器可以用便宜易得的状态-动作数据训练，能做策略评估、回归测试，甚至主动注入对抗场景；压缩算力后还能实时运行。

更重要的是，这套神经模拟方法可以直接从FSD迁移到Optimus，把工厂、室内等场景一并生成出来。

回头看：特斯拉自动驾驶近两年的主要突破

CVPR 2026的这场演讲，放在特斯拉近两年的自动驾驶演进脉络中看，是一个阶段性的总结节点。

2024年下半年到2025年初，FSD完成了从V12到V13的迭代。V12是特斯拉首个全端到端的量产版本，用神经网络替代了此前三十多万行C++手写规则代码。这是一个架构级别的切换——从“感知用神经网络、规划用代码”变成了“感知和规划都在同一个网络里完成”。V13在此基础上大幅提升了城市复杂路口的通过率和变道时机判断，引入车位到车位的端到端能力，用户从停车场出发到目的地停车，中间基本没有断点。

2025年，FSD的累计行驶里程突破100亿英里。这个数字本身或许只是宣传口径，但其对应的数据飞轮效应是实质性的：里程越多→长尾场景采样越密→模型训练越充分→体验越好→用户使用频率越高→里程更多。特斯拉没有对外公开过具体的训练算力规模，但行业普遍估算其训练集群在数万张H100级别以上，且仍在扩张。

2025年下半年到2026年初，几个标志性事件值得注意。一是FSD监督版在中国落地，作为首个进入中国市场的海外智驾方案，其在本土路况下的适应速度和表现受到了相当程度的行业关注。二是Optimus与FSD在底层模型和芯片上正式打通，形成了从“感知-规划-控制”到“任务理解-动作生成”的统一架构。三是特斯拉首次明确提出了Robotaxi的时间表，而支撑Robotaxi商业化的技术前提——去安全员、远程接管、车队调度——都离不开一个足够可靠的端到端模型。

CVPR 2026的演讲，本质上是在给上述这些进展做一个技术层面的“交底”：端到端为什么是必须的、难点在哪、特斯拉是怎么解的、下一步往哪走。

对中国玩家意味着什么

这场演讲给国内智驾行业传递的信息，不是“特斯拉有多强”，而是它正在把自动驾驶重新定义为“具身智能的一个子集”——车只是第一个身体，Optimus是第二个，数字智能体是第三个。三者共享同一套基础模型。

这意味着竞争维度正在发生迁移。算法本身的差距会逐渐收敛，算力可以采购，真正的分水岭在于数据飞轮的效率和闭环评估体系的可信度。谁能更便宜、更快地搭建从数据采集到神经模拟到闭环评测的完整工具链，谁就能在迭代速度上跑赢对手。

这恰好是国内拥有海量真实路况数据的玩家最有机会发力的方向，但也是最容易被忽视的环节——因为它不如跑分、不如Demo视频、不如“城市NOA开城数量”那样有传播性。但特斯拉正在用整个演讲表明：那些看不见的工程基建，才是决定终局的东西。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

特斯拉CVPR 2026:把自动驾驶压成“两个token”,然后复制到所有机器人身上

最新文章

热门文章

随机文章

特斯拉CVPR 2026:把自动驾驶压成“两个token”,然后复制到所有机器人身上

2026乘用车:“5326”SUV 市场空间和格局变化几何?

9万级吉利星瑞,家用轿车该看这3点

最新文章

热门文章

随机文章