近日,国外博主驾驶特斯拉开启FSD自动驾驶时,和系统聊天的视频刷爆网络,FSD一心二用,在路上灵活行驶的同时,还能处理驾驶员给出的模棱两可的语音对话,真是让人大开眼界,颇有李鸿章在纽约街头的感觉。下图是特斯拉在暴雨天气下,仍然能够在110的时速下进行安全的自动驾驶。
当整个自动驾驶行业还在为激光雷达的参数和数量争得头破血流,把车顶堆成“传感器全家桶”时,特斯拉却毅然拆掉所有雷达,让车辆以“纯视觉”方案“裸奔”。这看似疯狂的举动,究竟是马斯克为削减成本的冒险,还是一场对物理世界认知的颠覆性革命?
马斯克的“第一性原理”思维,为特斯拉的纯视觉路线提供了哲学支撑。他将问题拆解到最本质:人类设计的道路系统,从根上就是为双眼和大脑服务的。路标、红绿灯、车道线,这些核心交通元素全是视觉信息。人类驾驶员仅凭一双眼睛和一个大脑,就能处理99%的路况,从不需要激光雷达或超声波传感器的辅助。
既然人类能靠视觉搞定驾驶,那如果AI的视觉处理能力足够强大,为何还要给汽车装上激光雷达这种“昂贵的外置器官”?这就是特斯拉抛弃雷达的底层逻辑——用最符合人类认知逻辑的方式,重构自动驾驶的感知体系。
特斯拉前AI负责人Andrej Karpathy曾一针见血地指出激光雷达的局限:“它能告诉你距离,但分不清前方是塑料袋还是石头。”这暴露了“雷达+摄像头”融合方案的致命BUG——当雷达的“距离感知”和摄像头的“视觉语义”冲突时,系统会陷入“传感器打架”的两难。
比如,雷达探测到前方有“障碍物”,但摄像头判断那只是光影造成的误判,车辆该听谁的?这种不确定性是自动驾驶安全的隐形炸弹。特斯拉的解法堪称激进:彻底砍掉雷达,把所有资源投入到视觉感知和AI算法的迭代中,让“眼睛”和“大脑”变得足够强大,从而绕过融合感知的先天缺陷。
特斯拉FSD V14的“端到端神经网络”,是纯视觉路线的技术核心。传统自动驾驶靠“规则驱动”,工程师要写几十万行C++代码,明确规定“看到红灯必须停”“遇到行人要避让”。但FSD V14把这些代码砍到只剩两三千行,转而用数以亿计的真实道路视频数据喂养AI。
这就像教AlphaGo下棋——不需要灌输“定式”,只需要让它学习千万盘人类高手的对局,它就能自己“悟道”。FSD的纯视系统也是如此,在海量数据中总结驾驶规律,最终实现“像人类老司机一样思考”。这种模式的优势在于泛化能力极强,能应对代码规则覆盖不到的复杂场景。
根据特斯拉2025年Q3财报披露,FSD的累计行驶里程已突破60亿英里,这相当于人类驾驶员连续驾驶超过100年的总里程。如此庞大的数据量,是Waymo等依赖“特定区域测试”的车企难以企及的——哪怕它们日夜不停地跑,也追不上特斯拉的积累速度。
更关键的是,纯视觉方案让每一辆特斯拉都成为移动的数据采集器。车主在日常驾驶中产生的所有视觉数据,都会反哺FSD的算法迭代。这种“卖车即采集数据,数据又优化系统,系统再提升销量”的正向循环,构成了特斯拉坚不可摧的“数据护城河”。
纯视觉对算力的需求是惊人的,特斯拉为此打造了世界顶级的AI训练集群——不仅部署了数万张NVIDIA H100显卡,还自研了Dojo超算。这套系统的算力强度,已经不是“造车”的范畴,更像是在“训练一个能驾驶的硅基生物”。
当其他车企还在比拼“谁的雷达更多、谁的芯片算力更强”时,特斯拉早已跳出了“堆硬件”的低维竞争,进入了“拼数据质量、拼模型泛化能力”的高维战场。这就像武侠世界里,别人还在靠“厚重铠甲(雷达)”防身,特斯拉已经练成了“摘花飞叶皆可伤人”的内功(神经网络)。
特斯拉押注纯视觉,本质上是在赌通用人工智能(AGI)的视觉感知能力。如果未来机器人要走进家庭,帮我们洗碗、打扫、照顾老人,它们是该长满雷达,还是该拥有一双像人类一样的眼睛?
马斯克的野心远不止于自动驾驶——他要让纯视觉成为AGI感知世界的“通用接口”。雷达或许能带来当下的“安全感”,但视觉+AI的组合,才是通往通用人工智能时代的门票。从这个角度看,FSD的纯视觉路线,更像是特斯拉为AGI时代埋下的一颗种子。
站在行业变革的十字路口,你更愿意相信“堆硬件”的稳妥路线,还是马斯克这场“纯视觉+AI”的激进豪赌?欢迎在留言区留下你的观点。