正式报告预计在周末发布!!!非常详细!!!
物理AI不是一回事:四个领域,差别比你想的大得多
前面聊过,物理AI就是让AI理解真实世界的规律。但说实话,同样是“理解物理”,落到不同行业里头,要解决的问题完全不是一码事。
我拆了四个最常被提到的领域:自动驾驶、人形机器人、工业仿真,还有像Sora视频生成。它们之间的差别,比汽车和飞机的差别还大。
自动驾驶
自动驾驶那个物理AI,它主要忙活什么呢?说白了就是“猜别人要干嘛”。你想想,你开着车在高速上,前面那辆车突然刹车灯亮了。你得在零点几秒内判断——它是要刹停,还是马上变道?旁边车道有没有车?后面有没有人追尾?
这其实不太像传统物理,更像是博弈,加一点概率。你要预判人的行为,不光是其他司机,还有路边那个可能突然跑出来的小孩。
那它难在哪儿呢?嗯,一个很烦人的东西叫“长尾问题”。就是那些很少发生、但一发生就要命的情况。比如路上突然掉下来一个床垫,或者一个皮球滚出来。这种场景,你开一万公里可能都遇不到一次,但你就是没法收集足够的数据去训练AI。
所以行业里现在大家都在干两件事。一个是拼命在虚拟世界里造各种奇怪场景,天天让AI练。【这个是物理AI、世界模型的其中一个应用与后面讲的人形机器人很接近】另一个是试着让AI学会真正的推理,而不是死记硬背。
这其中就涉及非常现实的问题——钱。目前要实现真正的高级自动驾驶,方案中得涉及一堆激光雷达、高性能芯片,加起来好几万块。普通人谁愿意掏这个钱啊。所以市场玩家们也在想怎么降本:少用点传感器、用便宜点的芯片,同时还不能太不安全。
技术趋势,现在是从“写规则”往“让模型自己学”那边走。以前工程师手动写:红灯停、绿灯行、看到行人让。现在是拿海量数据去训练一个神经网络,让它自己悟。所以前沿方向是“可解释的AI”,还有“世界模型”。让车不光能做决策,还能告诉你:我减速是因为我猜前面那辆车要变道。说白了就是让模型的决策有根据更像"人类老司机"。现目前有这个全栈能力的公司屈指可数!!!
真正的L4自动驾驶目前虽然根据法规还只能在限定区域里跑,但已经有点盼头了!
人形机器人
人形机器人可以说是目前最热门的话题。人们都想着可以有一套自己战地机甲。但是目前它要搞定的核心问题其实就两个:别摔倒,还得能干活。
你想象一下,一个人形机器人站起来,本质上是在不断地“倒下又撑住”。我们人类靠小脑和本能,根本感觉不到。但机器人全靠算法实时算——每走一步都得算重心在哪、地面平不平、手里拿的东西多重。
而且它不光要走,还得用手干细活。比如拧螺丝、抓鸡蛋。手的力道得特别准,轻了抓不住,重了捏碎。脚还得稳住身体。这种手和脚的配合,难度非常大。
那它卡在哪儿呢?最大的痛点是数据太少。
自动驾驶能跑几亿公里去收集数据,但你不可能让几千个机器人在街上走来走去吧。所以大家现在主要是在虚拟仿真环境里练,练好了再搬到真实机器人身上。但这个“仿真到现实”的鸿沟挺大的——虚拟世界里的摩擦力、空气阻力,跟现实不一样。仿真里跑得再顺,到现实里还是可能摔跤。【这个就是物理AI的作用点之一】
另一个痛点是硬件太贵。一台能站起来走路的人形机器人,光电机、减速器、传感器这些硬件成本就几十万。普通消费者根本买不起。所以整个行业都在想办法降本,希望降到几万块。
技术趋势方面,现在流行“大模型+机器人”。以前每个动作都要工程师手动编程,现在你直接跟机器人说“去把桌上的杯子拿给我”,大模型听懂以后,自动拆成走到桌边、伸手、抓取、走回来、递给你这些步骤。【这已经成为现实,figure,优必选,宇数等大型前沿机器人厂商已经验证,前段时间还有机器人分拣直播】
但大模型有个毛病——它不懂物理。它可能规划出“手指穿过杯子”这种搞笑动作。所以还得加一层物理约束来修正。
除此之外没解决的问题还有一些。比如电池续航,现在的机器人通常只能跑一两个小时,因为电机太费电。还有安全性,万一机器人失控伤人了怎么办?这些短期都挺难搞的。所以下游厂商的落地时间不是那么快!具体时间节点我会在最终报告中详细标注。
工业仿真
工业仿真这个词听起来很枯燥,但它的价值其实特别大。简单说,就是在电脑里模拟真实的物理过程,代替做实体实验。
举个例子,你设计了一款飞机发动机,想知道涡轮叶片在1000度高温下会变形多少毫米。你不能每次都造一个真发动机拿去烧吧,太贵了。所以你在电脑里建模,用物理AI去算。
工业仿真的核心要求就一个字:准。不能有1%的误差。因为真实发动机里差1%可能就空中解体了。
那难在哪儿呢?难在“精度和速度打架”。一个复杂的模型,用传统方法可能要算好几天甚至几周。但工程师希望几分钟就看到结果,好快速改设计。所以大家都在想办法,怎么能保持够用的精度,把计算速度提升几十倍。
另一个大问题是——国内的工业仿真软件跟国外差距太大了。这个市场长期被Ansys、达索、西门子这些外国公司把着。咱们的航天、航空、汽车、芯片企业,很多都在用国外的软件。这不光是钱的问题,是安全问题——万一哪天人家不卖给你了,整个研发可能就停摆了。
那工业仿真的技术趋势呢?是用AI来加速。传统方法是老老实实解物理方程,太慢。现在先用AI快速猜一个近似结果,再用传统方法去校正。这样速度能快几十倍。
但AI猜的不一定准。工业上对误差的容忍度极低,所以“近似”往往不够用。
还有更根本的——人类对物理本身的理解还不完善。比如湍流,科学家研究了一百多年,到现在也没完全搞明白。所以工业仿真只能在现有模型的基础上尽量逼近真实,不可能100%准确。且落地商业化几乎很难实现。
最后聊视频生成,比如Sora
Sora刚出来那会儿,大家都挺震惊的。输入一句话,生成几秒钟的视频,画面很逼真,光影也自然。
但你要是仔细盯着看,会发现不少物理bug。比如一个球弹起来,反弹的角度不对;一个人走路,腿突然变长了。为什么会这样?因为Sora不是真的懂物理,它只是在大量视频里学会了“看起来像真的”的统计规律。它见过很多次球落地弹起,所以能模仿,但它不知道弹起的高度取决于地面硬度和球的弹性。
所以视频生成这个领域,它的物理AI核心任务是“视觉上真实”,而不是“物理上精确”。它跟工业仿真刚好是两个极端——一个可以接受偶尔穿模,一个绝对不能出错。
那它难在哪儿?首先是“长时间保持一致”。Sora能生成几秒钟很惊艳的视频,但超过10秒就容易出bug。因为模型记不住前面几秒的物体状态,同一个杯子可能在这一帧还在桌上,下一帧就没了。
其次是对数据的饥渴。训练Sora这种模型需要海量的视频数据,最好是带标注的。但标注视频特别贵,大部分数据是从网上爬的,质量参差不齐。而且视频数据太吃算力,训练一次的电费可能就要几百万美元。
技术趋势方面,现在大家都在做“把世界模型塞进去”。也就是让模型内部先有一个物理模拟器,先算出物体怎么运动,再渲染成视频。这样物理一致性会好很多。Google的Genie和World Labs就在做这个方向。
还有一个趋势是“可控生成”。现在你给Sora一句话,它自由发挥。但你希望做到的是:你指定第3秒开始跑,第5秒雨变大,它就能按你的要求来。这目前还很难。
还没解决的根本问题是:模型缺乏对真实世界的因果理解。它只能模仿它见过的模式,一旦遇到没见过的组合,就容易翻车。比如“一只穿西装的熊猫在弹吉他”,训练数据里可能没有,模型就很难想象出来。
所以这四个领域都叫物理AI,但实际上面对的问题天差地别。有的在猜人心,有的在算平衡,有的在解方程,有的在学模仿。
你要是真对这个方向感兴趣,不用想着一下子全搞明白。先挑一个你感兴趣的领域,搞懂它卡在哪里、往哪个方向走。至少不会被那些大词给忽悠了
大家一起点点赞富贵降临~~




