| “物理AI最核心的是数据闭环和商业闭环,且两者之间呈正反馈。” |
物理AI浪潮正在加速席卷汽车智驾行业。
今年年初,英伟达CEO黄仁勋在2026年CES展会上断言,物理人工智能(物理AI)的“ChatGPT时刻”已经到来。据悉,其将AI的演进分为四个阶段:感知AI、生成AI、代理AI、物理AI。物理AI的核心在于“AI与物理世界的融合”,关键是让AI系统理解并应用物理规律,实现从虚拟智能到实体执行的跨越。
在这一言论背后,今年3月,小鹏汽车宣布更名小鹏集团,开启物理AI新征程。其董事长何小鹏明确表示,公司正处在“物理 AI 应用的历史性转折点”。今年4月,元戎启行CEO周光在受访时认为,汽车是验证物理AI能力的首个最佳场景。“物理AI的上半场是自动驾驶,下半场是机器人。”
在2026北京国际车展上,Momenta也宣布其Momenta R7强化学习世界模型实现量产首发,标志着智能驾驶从“看见世界”到“理解世界”的全新跨越,物理AI正式从技术理念走向规模化量产落地。
对于物理AI的发展,Momenta CEO曹旭东同样认为是大势所趋。其在车展期间对蓝鲸汽车记者等表示,物理AI最核心的是数据闭环和商业闭环,且两者之间呈正反馈。“先有了数据闭环,才有足够好的体验,体验一旦达到了接近人类的水平或者超过人类的水平时,就能够实现爆发式的商业化。商业化又带来数据爆发式增长,进而带动模型能力发展,最终能够互相促进、互相激发,形成强烈的正反馈。”
在曹旭东看来,自动驾驶是物理AI的序章,“因为它最先实现了规模的数据闭环和规模的商业闭环。”
但其也指出,物理AI是需要有门票的,即需要有现金流的业务。“以创业公司的研发效率来看,自动驾驶要实现规模化的L4,我的判断累计的投入至少是百亿美金。但对于通用的机器人而言,我的判断可能是几百亿美金到千亿美金这个级别。”
Momenta能拿下门票,或主要源于在辅助驾驶上的合作。官方数据显示,Momenta已交付超70款量产车型,累计定点车型数超过200款,量产落地覆盖十余个国家和地区。搭载Momenta系统的量产车辆规模已超80万台。
谈及智驾行业竞争,其认为非常考验规模效应和先发优势。曹旭东回忆与奔驰的合作,称后者从2017年投资Momenta后,双方第一个量产项目直至2025年后半年才上市,经历了整整8年时间。“面向主机厂,(智驾供应商)需要有特别强的先发优势,如果是国际OEM的话,可能要敲门敲5-7年。”其并重申,从行业格局来看,未来中国或剩2-3家。
以下为对话实录:(在不改变原意的基础上进行了删减调整)
物理AI最核心的是数据闭环和商业闭环,“两者之间呈正反馈”
提问:目前很多公司都说自己是物理AI公司,你怎么看?
曹旭东:首先我觉得物理AI是大势所趋,为什么呢?首先大家都知道数字AI有很大的优势,第一个就是数字AI的数据能够快速的呈规模的获得。
大家都知道Open AI很早的时候,有机器人、有数字AI,但是后来在聚焦的过程中,阶段性的放弃了机器人,选择了去做GPT,很重要的原因是机器的数据太难获得了。
而GPT需要的是互联网的数据,而互联网的数据本来就已经是非常大规模了。数字AI在过去几年实际上是突飞猛进,当然另一方面数字AI能够更加低成本、短周期的检验,因为它能够在数字世界上去互动,它的成本是更低的,周期是更短的,就比如说现在Agent要调用的话,只需要给一个接口。但是机器人要调用某一个工具的话,它要把机械手造出来,并且要抓取那个工具,并且来使用那个工具,那个难度和复杂度都会大非常多。
但是,我们所在的世界,既有数字的部分,又有物理的部分,而物理的部分可能是更大的一部分,所以当数字世界整个的发展取得了非常大的进展之后,自然而然的很多的成功的经验和方法就要进入物理世界,并且在物理世界中做创新,这也是为什么我觉得现在是物理AI的序章刚开始。
提问:在物理AI领域,您认为Momenta在全球范围内处于什么位置?
曹旭东:对我们公司而言,讲到物理AI,其实物理AI我觉得最核心的,一个是数据闭环,一个是商业闭环,而且这两者是互动的。我有一个经验,这个经验就是,任何一个人工智能的应用,一旦接近人类的水平,就会在很短的时间大幅超过人类的水平,这背后的逻辑是什么呢?仅仅是我的一个观察,就比如说你看Alpha Go也好,或者过去的人脸识别也好,前面经过了一个非常漫长的爬坡期去接近人,接近人可能花了十年、二十年很长的时间,但是超越人,或者大幅地超越人,有可能就发生在1、2年,2、3年的时间,一开始有这个观察之后,我就在想背后的原因到底是什么?
后来就觉得最关键的还是数据闭环和商业闭环,而且这两者之间是正反馈的。因为先有了数据闭环,然后才有足够好的体验,这个足够好的体验一旦达到了接近人类的水平或者超过人类的水平的时候,就能够实现爆发式的商业化。而这个爆发式的商业化之后,又会带来数据爆发式的增长,而数据爆发式的增长又会带来模型能力进一步的爆发式增长,最终能够互相促进、互相激发,形成强烈的正反馈。而强烈的正反馈使得在很短的时间内就能够实现十倍、百倍甚至千倍人类的经历。
我们的判断就是自动驾驶进入到了这个阶段,机器人还需要一段时间,这是第一点。所以自动驾驶是物理AI的序章,因为它最先实现了规模的数据闭环和规模的商业闭环。
第二点就是,你看自动驾驶要实现规模化的L4,我的判断累计的投入至少是百亿美金,而且有可能还是创业公司的研发效率,如果你是大公司的话不只是百亿美金,可能需要几百亿美金。
但是机器人呢?通用的机器人它需要多少钱?我的判断可能是几百亿美金到千亿美金这个级别,有可能还是创业公司的研发效率。所以我的判断就是,物理AI它是需要有门票的,而这个门票就是你需要有现金流的业务。虽然现在整个中国具身智能的资本市场是非常活跃的,但是长期来看,要靠投资,要靠融资,追踪做成通用的物理AI,或者物理世界的AGI是不现实的。而是一定要有现金流业务,而这个现金流业务可以是自动驾驶,也可以是物理AI某一个方向。虽然我现在没有想到,其他的某一个方向能够更早地实现规模化的数据闭环和商业闭环,或者其他来自于数字AI的现金流业务。无论如何一定要有一个现金流业务来支持物理AI的研发。
智驾行业竞争考验规模效应和先发优势,“中国将剩2-3家”
提问:与小鹏、华为乾崑等辅助驾驶路线相比,Momenta的世界模型最大的特点是什么?
曹旭东:重要的不是单点算法,是架构能力,架构能力已经比单点算法能力更强了。因为一旦涉及到架构一定涉及到取舍,不是所有的创新都能放到同一个架构里面。涉及到架构的话就涉及到取舍,好的架构能够实现更好的积累和更好的合力,架构之上又包含了体系,这个体系包含了数据迭代的体系,包括了训练的体系,也包括了整个迭代的体系和验证的体系。体系之上更多的是组织和文化,就有一点像中国有一句古话,淮南为橘、淮北为枳。
我觉得根本上的企业之间的差距来自于组织和文化和对应的体系建设,这是有更大的差距的。而具体的单点算法的话,这个创新当然很重要了,每一代的算法架构的创新,实际上会带来大的进步。但是坦率来说,在中国的环境下,知识的流动和人才流动的速度其实是比较快的,仅仅是单点算法的话,并不存在特别大的壁垒或者差异性,有壁垒的是体系和组织的能力,所以你会发现,可能大家说的都是同样的单点算法的方向,但是最终做出来的效果可能有一代或者两代的差距,背后不是单点算法的差距,背后是体系和组织的差距。
提问:怎么看智驾格局?
曹旭东:整个智驾或者整个自动驾驶,它有非常强的规模效应和先发优势,它的效应会比芯片行业更强。所以你回顾历史可以看到,这个芯片行业,不管是PC时代的芯片,实际上全球就只有两家,手机芯片的时代全球也就只有两家,高通和MTK。
自动驾驶,因为它是软件,它的边际成本是零,所以它的规模效应更强,它的规模效应除了成本上的规模效应,还有体验上提升的规模效应。
另一方面,面向主机厂有特别强的先发优势,因为主机厂很多业务都是敲门敲三年,从你见到客户到拿下合同是3年,如果是国际OEM的话,可能要敲门敲5-7年。
我拿奔驰举例子,就比如说我们和奔驰的合作,2017年奔驰就投资了我们,而且当时特别巧,运气也特别好,Ola Källenius(康林松),现在奔驰的董事长,他觉得这个公司特别有活力,选择投资我们,但是我们跟奔驰的第一个量产项目上市是2025年的后半年,经历了整整8年的时间,其实已经加速了。
我当时问了一个清华的师兄,那个清华的师兄告诉我说,你们跟奔驰合作量产至少需要十年。我们中间2017年到2020年是POC,2020年到2022年是Pre SOP,2022年到2024年是小批量的量产开发,到了2024年才拿到了奔驰所有的电车和油车的业务,2025年底的时候才真正的量产。
所以举一个例子可以感受到,汽车行业敲门敲3年,国内的OEM敲门敲3年,海外的OEM敲门敲5-7年,到底是一个什么样的原因?因为这个行业有非常强的规模效应和非常强的先发优势,所以我还是维持我原来的判断,中国也就2-3家,全球也就3-4家,会非常快速地收敛。
“中国速度和国际OEM的标准,有时候是矛盾和冲突的”
提问:当下行业反向合资趋势明显,越来越多海外车企看重中国科技巨头,您怎么看?
曹旭东:中国的技术现在正在从中国走向世界,整个发展速度还是非常快的,进入海外的市场,比如说进入欧洲的市场,进入其他的一些市场的时候,给当地用户带来更领先的产品价值。但是另外一方面也会带来一些冲击,比如说冲击当地的公司、当地的就业或者是当地的税收等。比较好的一个解决方案就是借鉴中国之前的模式,就是跟中国学习,来做反向合资,反向合资完之后,既让当地享受到了中国高科技的技术和产品很好的用户体验,另外一方面就相当于是中国的技术赋能当地企业,对当地企业带来更多的发展,带来更好的工作机会、更多的就业、更好的税收,是一个共赢的模式。
提问:我们与外资车企合作过程中,有过哪些挑战?
曹旭东:最常见的挑战,是中国的速度和国际OEM的标准,有时候是矛盾和冲突的,但是这个矛盾和冲突主要围绕着客户和用户,以客户和用户的价值为中心去共创,很多时候都能找到更好的创新性的方法,带来更好的结果。
明年计划做Robotruck,“自动驾驶在大模型领域存在很强的平台效益”
提问:L4业务的进度如何?有没有什么规划?
曹旭东:我们公司的L4并不是只做Robotaxi,我们既会做Robotaxi,也会做Robovan,就是物流。因为我们十年的愿景里面,十年物流和出行的效率翻倍,实际上物流是放在更前面的,出行放到后面。明年我们也会做Robotruck,虽然我们今年不会做,但是我们明年会做。
背后的底层逻辑是什么呢?Jeff Hawkins那一本书里面,讲到了一个核心概念就是一个神经网、一个大模型能够实现通用AI的能力,具体落地到自动驾驶这个领域的话,我们相信的是什么呢?我们相信的是一个自动驾驶的大模型能够实现所有的自动驾驶的垂直应用,并且做得更好。
而且这件事情我们已经在Robotaxi、Robovan和乘用车上成功的验证了,并且取得了很好的效果。这个带来的价值是什么呢?带来的价值就是你在每一个vertical的研发成本会大幅度的降低。而每个应用场景,每个垂直应用场景的经验和数据,又可以汇总和吸收到这个大模型里面,使得每个垂直领域做得更好,这实际上就是一个平台优势。
我们判断在自动驾驶在大模型领域也存在着很强的这样的平台效益,一个大模型能够实现所有的垂直领域,并且能够做得更好,这样每个垂直领域的成本更低,效果会更好。
提问:数据飞轮在实际量产的过程中,最大的瓶颈是数据量还是算法?
曹旭东:数据这件事情,它不是单单的数据本身。你可以认为数据它就是矿石,而且是含矿量很低的铁矿石,所以你要把数据真的用起来的话,首先你要把这个贫矿变成富矿。
我举一个例子,我刚才分享到的,在高速上三只小狗排队横穿高速,这样的场景真的是万中无一、万里挑一,你怎么把这个数据给挑出来?它的难度本身就是一个大海捞针的难度,这已经有很高的门槛了。你怎么把贫矿变成富矿,再从富矿变成钢铁,钢铁又变成发动机,发动机最终又装到车上,这才是最终的价值,所以整个的数据飞轮的体系。它是一个体系能力,拥有原始数据,拥有海量的原始数据仅仅是一个价值源头的10%,剩下的90%是来自于这个体系的价值。
提问:有一种说法,数据不难,但是用好数据比较难,所以Momenta怎么去用好这些数据?
曹旭东:像我们的大模型,可能细节不能说太多,但是我可以分享一下我们可能会分为预训练的阶段和Post-Training的阶段。预训练的阶段,海量的来自于我们的量产车,我们现在已经80万台车了。海量量产的数据,包括了大量的长尾数据,通过World Model Pre-Training来预训练这个模型。
预训练完这个模型之后有物理常识,但是有物理常识不代表它是一个好司机,因为大量的数据里面有好的驾驶行为,但是更多的是不好的驾驶行为。所以就有一点像数字AI里面大模型的训练一样,你通过海量的数据作为输入,它具备了这个世界的常识,但是不代表着它有好的行为,所以你还是需要Post-Training。通过Post-Training,把它的行为激发或者对齐到人类好的行为上去。