就在前两天,在大规模机器学习大会上,特斯拉AI团队负责人阿肖克·埃卢斯瓦米(Ashok Elluswamy )发表了演讲,主题就是:在特斯拉构建机器人通用大模型。他说:特斯拉已不再仅仅是一家汽车公司,而是一家**物理世界通用人工智能公司** 。目前,特斯拉已彻底放弃传统的模块化系统,全面转向**“像素进,控制出”的端到端(End-to-End)神经网络** 。这套系统不仅驱动着已在奥斯汀公开运营的无人驾驶出租车(Robotaxi ),更成为了人形机器人“擎天柱”(Optimus )的核心大脑。
那咱们今天就用这个短视频来一起听听:阿肖克·埃卢斯瓦米是如何在特斯拉构建机器人通用大模型的?
## 一、 “感知模块已死”:端到端的驾驶革命
阿肖克在演讲中展示了正在奥斯汀(Austin)运行的无人出租车服务 。车内空无一人,乘客上车点击“开始行程”,车辆便能自主穿行于拥堵的城市街道 。
> “特斯拉已经放弃了所有传统的模块化方案。我们不再有独立的感知栈、规划栈和预测栈,取而代之的是一个单一的端到端神经网络,直接接收原始传感器输入 。”
为什么一定要走这条路?阿肖克直言,传统的软件工程强调“分解关注点”,但在复杂的机器人世界,这会导致**“信息流失”和“抽象的泄露”** 。如果你试图用固定的逻辑规则去解决路面上的每一个小坑、每一条交通变数,你就会陷入无穷无尽的“电车难题” 。
Note:
1.“电车难题”是一个著名的伦理学思想实验:一辆失控的电车驶来,前方轨道上有五个人;你可以推动操纵杆让电车转到备用轨道,但那里也有一个人。你是选择不作为(导致五人死亡),还是主动干预(导致一人死亡)?
他举了一个极其生动的细节:**“等鸡过马路”** 。
在 FSD的视角下,它不需要专门写一个“鸡腿检测器”来预测家禽的走向 。相反,端到端系统直接通过像素流捕捉到了最后一只“掉队的鸡”的微小动作,并据此做出等待或绕行的判断 。
---
## 二、 克服“维度的诅咒”:20亿Token的压缩
端到端系统虽强,但面临着**“维度的诅咒”** 。
特斯拉的每辆车拥有8个500万像素的高清摄像头 。如果要回溯过去30秒的历史(比如在十字路口记住谁先到达 ),输入网络的数据量高达**20亿个Token** 。
Note:
1. 在很多国家的交通规则中(尤其是没有红绿灯的四向停车路口,即 All-way Stop),车辆通行的顺序是遵循**“先到先行”**原则的 。
瞬时画面的局限:如果 AI 只看当前这一秒的画面,它只能看到四个路口都有车停在那。它无法判断哪辆车是 5 秒前到的,哪辆车是刚刚才停下的 。
记忆的重要性:为了做出合法的决策,AI 必须“记住”过去几十秒发生的序列事件,从而判断路权(Right of Way)归谁 。
而AI最终只需要输出两个极其简单的指令:**转向角度和加减速数值** 。
在如此极致的数据压缩中,AI极容易学到“错误的关联” 。为了解决这个问题,特斯拉利用其庞大的车队规模,每天在海洋般的普通数据中通过主动学习筛选出那万分之一的“有趣瞬间”——比如校车、消防车或是罕见的连环车祸场景 。
---
## 三、 世界模拟器:AI不仅在驾驶,它在“预判”
为了证明端到端系统不是一个无法解释的“黑盒”,阿肖克展示了特斯拉的**3D几何推理能力** 。
特斯拉开发了一种**生成式高斯溅射(Generative Gaussian Splatting)**技术 。传统方法需要几十分钟重构场景,而特斯拉的系统仅需几百毫秒,就能从神经网络中提取出车辆周围精确的3D几何结构 。
更令人惊叹的是他们的**“世界模拟器”** 。
> “这是一个世界生成神经网络。给定当前的视频和动作,它能预测并生成下一帧画面 。”
这个模拟器生成的视频达到了36fps的极高帧率 。它的核心作用是**“闭环评估”** :团队可以将历史上的干预案例在模拟器中“重演”,观察新的AI算法是否能比老算法表现得更好,甚至可以在虚拟世界中注入原本不存在的障碍物来测试AI的极限反应 。
---
## 四、 物理世界的通用大模型:从Cybercab到Optimus
阿肖克强调,这套架构不仅是为汽车设计的,它是**机器人的通用底座** 。
**Cybercab(赛博出租车)**:这款即将在今年晚些时候推出的车型,彻底取消了方向盘和踏板,旨在实现比公共交通更低的成本 。
**Optimus(“擎天柱”机器人)**:相同的视频生成网络正被用于训练机器人在室内行走和进行复杂的物体操纵 。
---
## 五、 为什么只用摄像头?
在问答环节,面对“为何如此坚信视觉方案”的质疑,阿肖克的回答尽显自信与犀利:
> “你是怎么开到会场来的?你是用眼睛看路开过来的吧。既然人类和动物都能靠视觉在世界上生存,为什么AI不行 ?”
他指出,自动驾驶本质上不是“传感器问题”,而是**“AI理解问题”** 。摄像头提供的信息已经足够丰富,以前需要激光雷达是因为AI还不够聪明,无法提取这些信息 。而现在,智能已经足够跨越这个门槛 。
## 结语
特斯拉的愿景是创造“惊人的富饶” 。通过将物理世界的各种任务简化为统一的AI模型,阿肖克和他的团队正在将这种科幻的未来变成现实 。正如他所说,如果你也想解决这些极具挑战又极具意义的问题,“请加入我们” 。