近年来,随着大模型、具身智能、自动驾驶、人形机器人、无人机等概念轮番升温,机器智能似乎正在全面逼近现实世界。但若仔细观察就会发现,这些技术虽然同属“智能落地”,其发展路径却并不相同:有的看似复杂,却能率先进入应用;有的任务边界相对清晰,却迟迟跨不过全面普及的门槛。自动驾驶正是其中最典型的例子。按理说,它的目标明确、规则清楚、场景相对收敛,比起人形机器人所面对的开放世界,似乎更应率先成熟;然而现实却是,自动驾驶虽然进步显著,甚至在许多情况下已不逊于大多数人类司机,却始终卡在“几乎可用”而又难以全面放开的边缘。与之相比,无人机早已在民用和战场上大规模铺开,人形机器人也开始在工厂和仓储中寻找自己的立足点。这种反差说明,决定一项技术命运的,从来不只是它“聪不聪明”,更在于它面对的约束条件、容错要求以及跨越最后门槛的难度。本文正是试图通过自动驾驶与人形机器人、无人机及战场机器的比较,来说明不同机器智能为何会走出不同的演进曲线,以及为什么自动驾驶尤其呈现出一种典型的 S 形发展特征:前期缓慢,中段猛进,高处难攀。
自动驾驶的现状与发展方向
自动驾驶是基础模型时代最典型的窄域落地场景之一:它因任务边界清晰而受益于大模型的规模效应,也因公共安全要求极高而呈现出鲜明的S形发展特征——前期缓慢,中期猛进,后期越接近全面可用越艰难。
第一,自动驾驶是基础模型范式在物理世界中的一个窄域落地和点状突破。
自动驾驶借用了大模型时代最重要的方法论:大数据、端到端、预训练、规模化、泛化能力;但它处理的不是语言本身,而是摄像头、传感器、地图、轨迹、控制动作和真实道路环境。近年的综述已经把自动驾驶中的这类方法统一归入“基础模型”(foundation models),范围包括 LLM、VLM、多模态大模型、扩散模型和世界模型(world models)。Waymo 也在 2025 年公开表示,他们在自动驾驶的运动预测与规划中观察到了类似语言模型的扩展定律(scaling laws);Wayve 则明确把自己的路线称为“general-purpose driving intelligence”(通用驾驶智能),强调它靠数据学习,并能跨车辆、地理区域和应用扩展。
自动驾驶不像通用机器人那样要面对几乎无限开放的任务空间,也不像通用智能那样要处理无边界的目标。驾驶虽然复杂,但目标高度明确:从A点到B点,在交通规则约束下,安全、平顺、有效地到达。正因为问题边界比“通用智能”窄得多,它更容易承接基础模型带来的能力红利:先通过海量数据学习世界,再在这个明确任务上持续优化。Mobileye 2023年就把这种趋势概括为自动驾驶是否会迎来一个“ChatGPT时刻”——本质上就是把原来大量手工模块拼接的系统,转向更强的数据驱动和端到端神经网络。
第二,自动驾驶的发展符合S形曲线:前期慢、中期快、后期又极难。在同一技术范式内,大模型进步通常服从边际递减。
前期慢,是因为早期自动驾驶主要依赖规则、地图、模块化工程,能力提升更多靠人工拆任务、补模块、调参数,进步自然不快。
中期变快,是因为数据驱动和基础模型方法开始接管:模型越大、数据越多、算力越强,感知、预测、规划会一起进步。Waymo的公开研究就明确说,自动驾驶中的核心能力——运动预测和规划——也呈现出“规模越大、性能越强”的规律,这正是S曲线中间那一段突然变陡的原因。
后期重新变慢,不是因为“模型不够聪明”,而是因为它进入了公共安全系统的高门槛区。语言模型到了90分,用户还能容忍偶尔胡说;自动驾驶到了99分,却仍然可能因为极少数长尾错误而无法放开。NHTSA现在仍明确写着:今天消费者能买到的最高自动化水平,仍要求驾驶员保持充分参与和注意力;L4、L5都不是当前面向消费者可购买使用的成熟技术。特斯拉自己的新西兰官网也直接写明,FSD是 Supervised,需要主动监督,“does not make the vehicle autonomous”。这就说明,自动驾驶后半段的难点已经不再是“会不会开”,而是“能不能在公开道路上以极低失误率长期运行,并被监管、社会和责任体系接受”。
第三,自动驾驶当前的发展方向是“受限 L4 持续扩张”。
自动驾驶发展的S曲线,本质上不是单纯的技术曲线,而是“技术—安全—监管”三条曲线叠加后的结果。在技术上,基础模型确实让它进入了加速期;在安全上,公共道路的长尾场景又强行把曲线压平;在监管上,越接近真实放开,越需要可解释、可验证、可归责。也正因此,自动驾驶会给人一种很强的感受:似乎已经“快到了”,但真正全面落地却总差最后一步。这不是幻觉,而是S曲线后半段的典型现象——平均能力提升仍在继续,但距离可大规模放开的阈值,边际成本越来越高。
公开道路是一个开放世界,参与者有车辆、行人、骑行者、天气、施工、遮挡、突发行为,属于典型的长尾风险场景。所以自动驾驶不是“任务定义难”,而是“安全证明难”。
自动驾驶在常规驾驶方面已经取得了长足进步,剩下的问题不是平均水平,而是极少数坏场景:一次误判施工手势、一次被逆光遮挡、一次对非常规人类行为理解错误,就可能是高代价事故。公众和监管对这种系统的容错率,远低于对人类司机的容错率;近年的研究也反复提到,社会接受度高度取决于感知安全、责任归属和法律适配,不是单看平均驾驶水平。
按 NHTSA 的定义,L4是限定区域/限定条件下系统全权驾驶,L5是所有道路、所有条件下都能全权驾驶;目前在受限场景的L4路线里,自动驾驶已经显示出可观成果。自动驾驶的主战场,正从“提升平均驾驶能力”转向“消灭长尾错误、争取社会信任与制度通行证”。下一阶段最现实的路径,不是通用L5突飞猛进,而是受限L4持续扩张;
特斯拉的 Robotaxi 也只写明目前在得州奥斯汀的有限区域运营。也就是说,市场叙事上,面向普通车主的“到处都能开”的真正无监督自动驾驶,常常显得“快到了”,但按技术分级和监管口径看,目前的自动驾驶技术离真正的通用 L5 还差得很远。
相较于人形机器人,自动驾驶的应用场景其实更收敛、规则也更明确,按理说更容易率先落地。问题在于,自动驾驶面对的是公共道路和真实生命安全,人们对它的容错率远低于对人类司机的容忍度。即使今天的自动驾驶系统在大多数情况下已经比绝大多数老司机更稳定、经验更丰富、差错率更低,只要仍然存在少量关键性失误,就难以获得社会和监管层面的广泛接受。也正因为如此,自动驾驶的发展已经进入“最后一公里最难”的阶段:企业虽然还在持续迭代、不断修补和优化,但越接近真正可全面落地的目标,提升所需付出的代价就越大,进步也越难呈现突飞猛进之势。近两年来,L5级自动驾驶似乎始终呼之欲出,却始终难以跨过那个对精度、安全性和可靠性近乎苛刻的门槛。
自动驾驶与人形机器人的发展路径比较
自动驾驶和人形机器人,表面上都在做一件事:让机器替人完成现实世界中的动作。但两者的发展路径几乎是相反的。自动驾驶的路子是:先把问题收窄,再把安全做到极致;人形机器人的路子是:先接受不完美,在局部场景里干起来,再逐步扩展能力边界。这就是为什么自动驾驶看起来更“单一”、更接近实用,却迟迟难以全面放开;而人形机器人看起来更“难”、更笨拙,却反而可能先在工厂和仓库里一点点落地。
先说自动驾驶。它的任务定义其实比人形机器人清晰得多:道路有车道线、红绿灯、交通规则,也有明确的评价指标——不出事故、少违章、乘坐平顺。美国NHTSA仍沿用SAE的自动驾驶分级,从L0到L5;其中L4是在限定运行条件下由系统全权驾驶,L5才是任何道路、任何条件下都能全权驾驶。特斯拉现在面向消费者提供的仍是 Full Self-Driving (Supervised),官网明确写着它需要驾驶员主动监督,并不使车辆成为自主驾驶车辆。这说明自动驾驶虽然能力不断上升,但离真正通用、无监督的L5还有明显距离。
自动驾驶今天实际走出来的,是两条不同路径。第一条是L2/L2+ 辅助驾驶,也就是特斯拉、Super Cruise 这类“你仍然负责”的路线;第二条是L4 限定区域 RoboTaxi,也就是把城市、区域、天气、速度范围先限制住,再在这个边界内做真正无人化。Waymo现在已经在美国多个城市提供自动驾驶出行服务,并在2026年公布其累计超过1.7亿英里的全自动驾驶里程;按其公开口径,在相同城市和路况下,其严重伤害及以上事故率比人类驾驶低92%,伤害事故低82%。但另一方面,GM在2024年底正式停止资助Cruise的robotaxi业务,理由就是这条路要规模化仍需要大量时间和资源。也就是说,自动驾驶并不是“做不出来”,而是做出来以后,要把它证明到足够安全、足够可靠、足够便宜,极难。
它为什么难在最后一步?因为自动驾驶面对的是一个规则明确但长尾极多的开放世界。绝大多数时间它都能开,但真正决定能否放开的,是那些极少出现却代价极高的场景:逆光、施工改道、临时手势、异形车辆、突发行人、系统失效后的接管与处置。RAND的经典研究指出,如果仅靠真实道路测试来统计性证明自动驾驶比人类更安全,所需里程可能高达数十亿英里,甚至更多。这意味着自动驾驶的瓶颈不只是算法能力,而是安全验证、责任归属、监管认可和社会信任。所以它的主线不是“越来越像人”,而是“越来越可证明、可担责、可监管”。
再看人形机器人。它的问题和自动驾驶正好相反:它没有那么严密统一的规则世界,却拥有一个天然优势——它可以先在受控环境中工作。工厂、仓库、分拣中心虽然也复杂,但比公共道路可控得多;即便速度慢一点、效率低一点,只要安全、能替代部分重复劳动、经济账能算过来,就可以边干边改。Agility明确把Digit定位为在“以人为中心设计的环境”中工作、尽量不改造基础设施的通用机器人;该公司称其机器人已经部署于制造、分销和物流场景,并在商业部署中搬运超过10万个周转箱。Boston Dynamics也已把新一代Atlas明确定位为工业物料搬运与智能自动化平台,并宣布2026年开始在Hyundai和Google DeepMind等客户处部署。
但人形机器人的技术难度,其实比自动驾驶更“立体”。自动驾驶主要是感知、预测、决策和控制的耦合;人形机器人却要同时解决移动、平衡、抓取、力控、双手协同、物体理解、长时序任务规划等问题,还要处理现实世界中极其多样的材料、形状、摩擦、遮挡和变形。Figure在2025年推出的Helix,把它定义为一种统一感知、语言理解和习得控制(learned control)的VLA模型,并把应用推进到物流包裹操作与分拣;这恰恰说明行业正在试图用“大模型式”的方法,把过去分裂的模块整合起来。与此同时,学术综述和NVIDIA的物理智能(Physical AI)路线都在强调一个事实:机器人现在真正缺的不是“会说话”,而是长时序物理交互数据、仿真到现实的迁移能力,以及对复杂环境的世界模型。
因此,两者的发展路径可以概括为一句话:自动驾驶是“先专后广”,人形机器人是“先粗后细”。自动驾驶先在单一任务里追求接近零失误,所以它必须晚放开、慢放开;人形机器人则先在少数高重复、低社交、低法律风险的任务里干起来,哪怕动作还不够漂亮、效率还不够高,只要比人工便宜或能补上缺工,就可以先部署。自动驾驶的核心约束是安全阈值;人形机器人的核心约束是成本、可靠性和可维护性。自动驾驶是“最后1%最难”,人形机器人则更像“前50%都很难,但一旦硬件、手部操作和数据飞轮形成,后面的任务覆盖率可能会一段段跳升”。
所以,未来几年最可能出现的不是“谁一下子全面胜出”,而是两条路线各自在不同边界内兑现价值。自动驾驶会继续沿着“限定区域L4扩张 + 个人车辆监督式辅助增强”前进;人形机器人会沿着“工厂和仓储先落地,再向更复杂服务场景外溢”前进。前者先证明安全,后扩大边界;后者先找到付费场景,后提升通用性。自动驾驶更像一场高门槛的安全审判,人形机器人更像一场缓慢但可复用的工业渗透。哪条路先大规模改变世界,不取决于谁更“聪明”,而取决于谁先跨过各自最硬的约束:自动驾驶要跨过的是社会对“不可出错”的要求,人形机器人要跨过的是现实世界中“既要会动,又要会干,还要干得值”的门槛。
自动驾驶与无人机的应用比较
自动驾驶与无人机应用,表面上都属于“自主移动系统”,但它们真正走的并不是同一条路。自动驾驶是在高度社会化、强约束、强责任的公共道路上,用机器替代人开车;无人机则是在低空、轻载、点对点的任务里,用机器替代人去运、去看、去巡。因此,两者的技术难点、监管门槛、商业落地方向都很不一样。
先看应用环境。自动驾驶的世界更“规则化”,但也更“拥挤”:道路有车道线、红绿灯、路权规则,可问题是参与者太多,车、行人、骑行者、施工、临时指挥、学校区域、应急车辆都在同一平面里高频交互。无人机的世界更“稀疏”,但也更“脆弱”:空中没有那么多近距离互动对象,少了大量“贴身博弈”,却更受天气、风、通信、定位、起降点、低空空域管理的影响。换句话说,自动驾驶更像在复杂社会秩序中行事,无人机更像在物理条件和空域规则中行事。
从安全代价看,两者也不一样。自动驾驶一旦出错,往往是“人与人”的高后果事故,因为汽车本身质量大、速度高、直接混行于公众道路,系统不仅要会开,还要在长尾场景里长期稳定、可归责。NHTSA现在仍按SAE分级来定义自动化水平,并特别提醒,不要把今天的系统简单理解成“完全自动驾驶”;这其实反映出监管对车辆自动化的谨慎态度。相比之下,多数商用无人机先运的是货,不是人,单次事故的典型外部性通常比载人汽车小,因此更容易从“小载重、短距离、低空、限定区域”切入。FAA当前对包裹无人机配送就明确限定在400英尺以下飞行、单包裹最大5磅,这本身就是一种把风险和场景一起收窄的思路。
监管路径的差别尤其关键。无人机是“先把边界画出来,再一点点放开”。FAA 的 规则(Part 107)本来就允许不少低风险商用飞行;超出规则的操作,可以通过豁免申请;而更进一步的配送,则走更专门的通道(Part 135)。与此同时,远程身份证规则要求多数需注册的无人机按规定运行,这相当于给无人机装上了“电子车牌”,便于识别和执法。也就是说,无人机的监管思路更像“低空可控试点—逐步扩容”。
自动驾驶则更难这么处理。因为即便是地理围栏内的RoboTaxi,本质上还是在公共道路、真实交通和社会规则中运行,不能像无人机那样轻易隔离。现在真正跑出来的,也主要是两条线:一条是面向消费者、仍要求人类接管的监督式辅助驾驶;另一条是限定城市、限定区域的无人出租车。Waymo 目前已经在美国多个城市开放服务或扩展运营,但仍是“在清晰边界内扩大覆盖”,而不是全国、全天候、无条件放开。
商业模式上,两者也天然分流。自动驾驶更适合高频、连续、载人或大件运输,比如出租车、干线物流、园区接驳,核心价值在于替代司机成本、提高利用率、延长运营时长。无人机更适合高时效、小重量、点对点任务,比如药品急送、零售即时配送、巡检、测绘、应急响应。FAA 对配送无人机的现有限制,本身就决定了它更适合“轻小急”的品类,而不是普遍替代汽车物流。
从落地现状看,这个分工已经很明显。自动驾驶的代表是 Waymo 这类限定区域的无人出行服务在不断扩城;无人机的代表则是 Zipline、Wing 这类在“轻载即时配送”上快速扩张。Zipline 今年 1 月宣布已完成超过 200 万次商业配送,Wing 也在2026年宣布与 Walmart 进一步扩展到更多门店和新市场。这说明无人机并不是比自动驾驶“更高级”,而是它找到的第一批可规模化任务,恰好更窄、更轻、更容易形成闭环。
所以,自动驾驶解决的是“复杂社会环境中的高可靠移动”,无人机解决的是“受限空域中的高效率点对点任务”。前者难在长尾安全、责任和社会接受;后者难在空域管理、天气、续航和载重。前者的价值密度更高,但最后门槛更硬;后者单次价值较小,但更容易先在窄场景里形成规模。
自动驾驶更像“在地面社会里学会不犯错”,无人机更像“在低空物流里学会持续赚钱”。谁更早大规模普及,不取决于谁更炫,而取决于谁先跨过自己的硬门槛:自动驾驶是安全证明与责任体系,无人机是空域制度、成本结构和场景密度。
战场上的无人机和地面机器人的应用前景对比
未来十年,真正大规模改变战场的主角,仍然首先是无人机;地面机器人会快速增长,但更可能先成为辅助战力,而不是步兵替代者。俄乌战场已经证明得很清楚:Reuters今年2月直接写到,小型第一视角(FPV)无人机如今“主导”乌克兰战场上空;乌方官方则表示,2025年底前部队将接收300万架FPV无人机。与此同时,乌克兰也在把战场数据开放给盟友训练无人机AI,用于抗干扰、自主寻的和更快处理目标信息。
原因首先在于成本、规模和可消耗性。无人机便宜、量大、更新快,适合“高损耗、快迭代、广覆盖”的现代战争节奏。乌克兰近年的经验显示,无人机不只是侦察工具,而是侦察、打击、校射、拦截、海上袭扰、后方纵深攻击的综合平台;连拦截无人机都已经开始按“每天数千架产能”来谈。战场上谁能便宜地大规模生产、快速改型、持续补充,谁就更有优势,而这正是无人机最强的地方。
相比之下,所谓“机器人战士”——更准确地说,是武装地面机器人、无人地面车辆、遥控突击平台——前景并不差,但路径不同。它们现在最现实的用途,不是像科幻片那样全面替代步兵,而是承担高危险、重复性强、对机动灵巧要求相对可控的任务:运补、后送伤员、排雷、布雷、火力支援、近距离侦察、伴随突击。乌克兰国防部2026年1月表示,2025年军方对地面机器人系统的采购目标已经超额完成;Reuters也报道,乌军正在前线铺开机器人车辆部队,目的正是把最危险的任务先交给机器。
但问题在于,地面机器人比无人机更接近“真正取代士兵”这个难题,而这一步特别难。它必须在泥泞、壕沟、瓦砾、建筑物、树丛、坡地、障碍物中移动,要承受电子干扰、地形限制、通信丢失、履带或轮组受损,还要在近距离、高压、混乱环境中识别敌我、判断掩体、穿越障碍、与人协同。乌克兰和外部研究都指出,地面机器人能显著减少人员暴露和伤亡,但目前仍“不现实”去大规模替代地面步兵;士兵仍然需要清壕、占点、搜索建筑、处理俘虏、稳定控制地域。
所以两者的前景,核心差别不在“谁更先进”,而在谁更适合现代战场的工业逻辑。无人机像弹药、像传感器、像一次性眼睛和拳头,天然适合批量化、网络化、消耗化;机器人战士则更像“无人步兵平台”或“机械骡子”,单价更高、维护更复杂、受地形制约更大、任务也更重。前者容易先形成数量优势,后者更容易先形成功能价值。换句话说,无人机会先“铺满战场”,机器人战士会先“占据岗位”。
还有一个更深的差别:法律与伦理门槛。无人机即便大量使用,很多仍然是“人在回路中”或“人在监督中”;但如果“机器人战士”进一步发展到能自主选择并攻击地面人员目标,就会直接碰到“致命自主武器”的国际法与伦理争议。ICRC和联合国近年都在强调,要保留对使用武力的“有意义的人类控制”,因为一旦把生死判断更多交给机器,风险就不仅是技术失误,还包括责任归属和战争法合规问题。这个约束,对“机器人战士”尤其强。
因此,比较务实的结论是:
第一阶段,主角是无人机。它们已经是现代战场的主流消耗品、主流侦打一体工具、主流低成本精确打击手段。
第二阶段,地面机器人会大增,但先做“危险工种”而不是“机械步兵”。它们会在运补、工兵、近距火力、伤员后送、排雷排爆中迅速扩张。
第三阶段,真正意义上的“机器人战士”——尤其是能独立作战、替代步兵的系统——会更晚,且长期受技术、地形、通信、伦理和法律共同约束。这不是没有前景,而是不会像无人机那样先爆发。
总之,无人机将先重塑战场,机器人战士将后重塑地面作战。前者更像“战争的工业化飞行器”,后者更像“战争的高门槛机械替身”。
结语
归根到底,自动驾驶、人形机器人、无人机,乃至战场上的空中无人机与地面机器人,并不是同一种技术在不同场景中的简单复制,而是机器智能进入现实世界的几条不同道路。它们面对的约束不同,通往落地的门槛也不同:无人机之所以率先突进,不是因为它最“聪明”,而是因为它最容易在低成本、低载荷、低接触密度的场景中形成闭环;人形机器人之所以看似笨拙却前景广阔,是因为它可以先在受控环境中做局部替代,在不完美中逐步积累能力;而自动驾驶之所以长期徘徊在“几乎可用”的边缘,则恰恰因为它处在一个规则明确却容错极低的公共空间之中。它不是不会开,而是不能错;不是不能前进,而是最后一步的代价远高于前面所有的路。
这也说明,技术的发展从来不是一条笔直上升的斜线,而更像一条条高低不同、快慢不一的S曲线。前段缓慢,是因为基础未成;中段猛进,是因为规模效应释放;后段放缓,则是因为越接近真实世界的核心门槛,越要面对安全、责任、制度、伦理与社会接受的综合检验。自动驾驶正处在这条曲线最艰难的高处,而无人机和人形机器人,则分别在各自更有利的位置上推进。看似更难的,不一定更晚落地;看似更简单的,也未必更容易跨过终点。
因此,真正值得观察的,不是哪一种机器智能更炫目,而是哪一种更先跨过了属于自己的那道硬门槛。未来的世界,很可能不是某一种“通用机器”一统天下,而是不同形态的机器智能沿着各自最适合的路径,先后渗入人类社会的不同层面。谁先改变世界,不取决于谁最像人,而取决于谁最先找到现实允许它生长的位置。