昨天和家人一起看春晚,聊得最多的话题是豆包和机器人
谈到机器人,我说目前中美最关注的技术路线不仅是机器人的灵活度,更是如何让机器人实现智能。智能涌现尚未实现,归根到底是没有解决数据的问题
家人起初并不认同,认为海量数据库早已足够支撑机器人学习各种动作
这让我打开了电脑里存放近两个月的草稿,尝试深入浅出地聊聊具身智能。我们先从自动驾驶的演变说起,推演那个能够跨环境、场景与本体,泛化应用到机器人与低空飞行器的终极模型,将以何种形态收敛?
数据瓶颈
要研究具身智能,最重要的不是具身,而是智能
为什么现在没有任何一家公司能实现真正的智能?带有动作标签的数据的匮乏是最核心的瓶颈之一
数据可以大体分为两种:真实数据与合成数据
海量的现有视频数据,也称为被动真实数据,如 YouTube 视频。这类数据有助于大模型大规模生成各类场景,但没有动作标签
即便视频记录了一个人打开冰箱的全过程,模型也很难仅凭画面可靠地知道指尖施加了多少力、门轴的阻尼如何变化,更无法把视觉信息稳定转化为动作指令
这引出了第二种真实数据:交互数据,其中最典型的是遥操数据。通过高精度触觉反馈、视觉传感器与电机编码器的同步采集,我们能获得带有精准动作标签的数据。这类数据能教会模型在多大力度下、以何种姿态打开冰箱门
然而,昂贵的采集成本和极低的扩展性,是目前制约模型实现泛化的核心瓶颈
正因采集遥操数据的成本不同,中美两国演化出了两种完全不同的技术路径
Dan Goldin 和 Ryan Duffy 在深度报告《The Last Hardware Problem》中指出,在美国,人力采集遥操数据的成本大概是 25-48 美元/小时。在中国,这个数字是 5-10 美元/小时。同等预算下,中国可以采集比美国多 3-5 倍的真实遥操数据
银河通用创始人王鹤也表示过,如果一家公司购买一万台机器人(按采访原话:10 万元/台,硬件成本 10 亿),每个月雇四名员工轮班采集数据,每月要支付数亿到十亿的运营成本。这对绝大多数公司来说,商业模式根本不成立
与此同时,DeepMind 谭捷也曾说过:
数据仅是“多”没有用,一定要 scalable 才真的有价值。
自动驾驶的前车之鉴
这个问题我们以前遇到过吗?答案是:有,在自动驾驶领域。本篇先从自动驾驶切入,聊聊数据如何一步步从配角变成主角
自动驾驶从重规则到重数据的技术演变,正预演着机器人和低空飞行器的今天
自动驾驶的起源很早,但大众叙事常以 2004 年美国国防部挑战赛为起点。从那时开始,绝大多数自动驾驶企业的技术路线押注在模块化架构上。感知、定位、预测、规划、控制,每个环节都被切分成独立模块
这一时期的核心是规则,长尾与交互复杂场景会触发保守策略,比如降速、停靠、请求接管,导致体验与覆盖受限
在这套规则驱动的体系里,真实数据主要被看作工程日志,而非训练资产
从 2010 年代开始,随着深度学习的普及,很多厂商在延续模块化设计的同时引入了深度学习,并将高精地图作为基础设施之一,代表企业为 Waymo
只要在高精地图范围内驾驶,车就可以通过传感器和设定规则知道怎么行驶。但维护高精地图是重资产,而且再精细的地图也赶不上实时发生的变化,比如施工维护、临时交通管制等。加上高精地图覆盖的城市范围有限,自动驾驶长期呈现出技术强、落地范围相对受限的产业格局
这一时期,真实数据被引入市场。当厂商发现车不认识某种路障时,工程师就去修改感知模块的代码,或把真实发生过的数据在模拟器里重放,做微小的参数修改
在当时,真实数据是用来验证、迭代规则的
马斯克的影子模式
直到马斯克的出现,彻底搅动了这个市场
2016 年前后,当行业注意力还集中在堆叠传感器时,Tesla 走了一条影响深远的路:把影子模式逐步铺到数百万级车队里
它不是让系统直接接管驾驶,而是让模型在后台默默学习人开车。Tesla 直接选择放弃难以长期维护的高精地图和冗长的代码,选择了神经网络与纯视觉路线
马斯克认为:
人可以靠眼睛开车,车也一样可以。
模型不需要每一秒都上传数据。大多数路况都很普通,真正值钱的是模型和人类在同一时刻给出完全不同选择的那几秒
系统把这些瞬间当作触发条件,截取前后短片段回传。于是,数据不再靠少量测试车去碰运气,而是来自海量日常驾驶里筛出来的高信息密度片段
工程师不需要分析为什么这里要刹车,只需要把海量此类数据喂给模型,模型就会自己拥有入弯减速的直觉
自动驾驶的迭代方式变了:
从“用规则教车怎么开”,变成“用数据告诉模型哪里不对”
FSD v12 端到端的崛起
当数据、算力和训练方法积累到某个阈值,端到端路线开始变得现实
FSD v12 被很多人视为一个标志:系统把更多显式的分模块规则折叠进单一网络里。它把“怎么理解路、怎么决定动作”的硬规则,交给了模型在数据中自己归纳
大家逐渐意识到,纯依靠高精地图永远无法实现真正的规模化,只有让模型具备强大的通用感知能力才能实现泛化
无论是采用传感器的国内小鹏、华为、理想,还是坚持重视觉的 Wayve,大家都在试图把系统从高度依赖规则与地图先验,推向拥有更强的感知与更端到端的学习
但怎么让模型应对未来无数的长尾场景?
头部厂商开始把仿真与合成数据纳入训练资产,用真实世界采集到的关键片段做场景重建与重放,再通过仿真与生成式方法批量合成变体,去覆盖那些现实中采集成本极高的高危场景,例如暴雨深夜+电动车闯红灯+行人逆行等
合成数据的意义不在于替代真实数据,而是用算力把稀缺场景的真实数据扩增为 scalable 的样本
数据地位的跃迁
回过头看,自动驾驶二十年的技术演变,本质上是数据地位不断升级的历史。在规则主导的早期,真实数据只是工程日志,用来复盘事故、排查 bug
到了高精地图时代,数据开始被引入仿真器做重放与验证,成为迭代规则的工具
Tesla 的影子模式将数据提升为训练资产,模型第一次直接从人类驾驶行为中学习直觉
而当端到端路线走向成熟,合成数据又将稀缺场景的经验扩增为可规模化的样本。数据的地位从附属品一路跃迁为核心生产要素
这条规律,正在机器人和低空飞行器领域重演
理解了这一点,才能理解接下来产业界为什么要在架构层面做出进一步选择
混合路线的探索
纯端到端解决了数据利用效率的问题,但无法做到失误可解释性,也无法百分百满足监管要求
工程师与监管机构在端侧模型出现问题时无法知道到底是什么原因导致智驾失灵。于是产业界分化出了一条端到端+世界模型的混合路线
就理想而言,其探索了 System 1 + System 2 结合的方式System 1 是负责毫秒级底层动作的端到端模型,比如看到前车刹车立即选择减速,这是由海量真实驾驶数据喂出来的直觉,反应极快但缺乏逻辑推理。仅仅有直觉还远远称不上智慧因此,理想在车端还引入了 System 2:一个22亿参数的VLM模型,通过自研推理引擎部署在端侧芯片上。当遇到施工改道、交警指挥等复杂长尾场景时,System 2 会利用其推理能力进行思考,指导 System 1 执行具体动作。而在云端,理想还构建了世界模型,通过场景重建与生成技术,批量制造无数的极端驾驶场景,对车端双系统进行训练与验证如今,理想正在将双系统进一步融合为统一的VLA模型,由云端基座模型蒸馏至车端,让感知、推理与动作生成在一个网络内完成。这标志着理想自驾正从双系统协作向单一智能体跃迁印奇的野心
不止李想,旷视创始人印奇的野心更大
在掌舵旷视、千里科技、阶跃星辰三家公司后,印奇打通了计算机视觉算法+AI 多模态大模型+整车这一完整的技术链
印奇认为,自驾车辆也是具身智能的众多形态之一。在他构建的版图中,旷视积累十年的计算机视觉能力构成了 System 1 的基础,充当视觉神经与小脑的角色,确保车辆可以在毫秒内执行刹车等反应。而阶跃星辰自研的千亿参数多模态大模型则补齐了 System 2的能力,为车辆注入逻辑与常识。最终,这一切能力在千里科技的整车平台上完成闭环
对印奇而言,这种从底层感知算法到顶层大模型再到终端硬件的垂直整合,让他能够看见具身智能商业闭环的可能性
这也是他在旷视学到的经验:
任何不能闭环的生意都不是好生意。
这套商业闭环本身就是一个数据飞轮。千里科技每一辆上路的车,都在不断向阶跃星辰的通用大模型回传真实驾驶场景中的多模态数据,包括视觉、决策轨迹与物理反馈
这些数据不仅优化智驾模型本身,更在丰富大模型对物理世界的理解,比如什么样的路面会打滑、施工区域的空间结构长什么样
对印奇而言,自动驾驶不是终局,而是通往通用具身智能的第一个数据入口
用一个已经能跑通商业闭环的场景,去喂养一个远比自动驾驶更大的模型
这不仅是自动驾驶的故事,也是机器人正在面对的问题
单说自动驾驶领域,这场仗还远没有结束
而那个能够实现泛化的世界模型,或许就在这精彩的博弈中,悄然诞生
关于它的故事,我们下一篇细聊