近两年,随着机器人学和人工智能的火热发展,具身纷纷成为大家火热讨论的热点。具身智能常被与自动驾驶技术相提并论,甚至被认为可能是自动驾驶技术的延伸或子集。
然而,从量产与商业落地的视角来看,这两条技术路线正在展现出越来越明显的差异。自动驾驶走过的曲折道路,具身智能或许不必完全重走一遍。
自动驾驶技术的核心挑战之一,是实现场景的泛化性。无论是复杂的城市道路、突如其来的施工路段,还是人类驾驶员都能本能应对的社交驾驶场景(如礼让、预判等),自动驾驶系统都需要能够准确理解并作出安全决策。这种对场景理解的全面性要求极高,也正是许多自动驾驶系统在落地时遭遇瓶颈的原因——系统可能学会了识别锥桶并刹车,却未必能在遇到载有锥桶的工程车时判断无需刹车。
这种对场景认知的高要求,推动自动驾驶技术从早期的模块化设计(感知、预测、规划各司其职)走向端到端学习,再演进至当前结合视觉语言模型(VLA)与世界模型的新范式。然而,即便技术不断迭代,面对现实世界中无穷的“长尾场景”,系统仍难以达到人类驾驶员的适应能力。Waymo无人出租车误入枪战现场的事件,正是这种局限性的体现。
相比之下,具身智能的泛化挑战更集中于行为的泛化性。机器人不需要成为通才或社交达人,但需要在特定任务中能够灵活应对各种扰动。例如,一个制作咖啡的机械臂,不仅需要学会标准的操作流程,还要能够应对杯子被碰倒、客人伸手位置不同、咖啡种类变化等情况。这种泛化体现在对任务执行过程中各种不确定因素的鲁棒适应上。
从谷歌的“物理智能”(PI)系列实验可以看出,机器人在单任务专家数据上进行微调后,成功率显著提升。这提示我们,具身智能的发展可能更依赖于在垂直场景中深耕,逐步积累应对扰动的能力,而非追求一步到位的通用场景理解。
自动驾驶的商业化道路充满了起伏。无论是追求L4级完全无人驾驶的Waymo、Cruise,还是以特斯拉为代表的、以人类驾驶为兜底的L2+辅助驾驶路线,自动驾驶始终面临一个根本性矛盾:它试图替代的是人类在单一场景(从A点到B点)中的驾驶行为,并且对安全性有着近乎完美的要求。这种“终局思维”使得技术研发门槛极高,数据闭环、仿真测试、训练平台等基础设施都需要巨大投入。
然而,一旦在某个场景或区域实现突破,其规模效应又十分显著。这也是为什么自动驾驶行业呈现出“高门槛、强复用”的特点。但安全底线的高要求也导致商业化进程缓慢,Cruise因事故频发暂停运营、多家公司经历战略调整,都印证了这条路的艰辛。
具身智能则展现出不同的商业化逻辑。它更像是“大树长出的枝桠”,在不同发展阶段都能找到相应的落地场景。从基于传统控制算法的工业机器人,到近期能够连续十小时制作咖啡的PI Star 0.6系统,具身智能的应用场景虽然规模可能较小,但更加多样化。
关键在于,人们对机器人任务的错误容忍度远高于自动驾驶。一杯咖啡做坏了可以重做,一次抓取失败可以重试,这种相对宽松的安全限制使得许多机器人公司能够更早地切入实际应用场景,在迭代中完善产品。Sunday Robotics等初创公司从成立之初就瞄准具体应用狂奔,正是利用了这种优势。
自动驾驶与具身智能在技术栈上的相似性容易让人产生两者将遵循相似发展路径的联想。但深入分析后可以发现,它们在泛化性的核心挑战、商业落地的逻辑上存在深层差异。
具身智能或许能够避免自动驾驶“全有或全无”的商业化困境,通过从小场景、低风险任务切入,逐步扩展能力边界。这种渐进式路径虽然可能不会产生像完全自动驾驶那样的颠覆性效应,但更可能在短期内实现可持续的商业闭环。
当然,这并不意味着具身智能的道路一帆风顺。机器人仍需克服硬件成本、环境交互的复杂性、多任务泛化等挑战。但至少,它不必背负自动驾驶那种“零事故”的极端安全压力,也不必等待所有场景问题完全解决才能迈出商业化的第一步。
未来,我们或许将看到具身智能以更加分散、多样化的形态融入生产与生活——从家庭服务到工业制造,从医疗辅助到特种作业。这条技术路径可能不会像自动驾驶那样万众瞩目,但却可能以更稳健的步伐,悄然改变我们与机器共处的方式。