本文仅为行业技术趋势分析,不构成投资建议,数据仅供参考2026年,自动驾驶正从"感知智能"跨入"认知智能"的深水区。表面上看是车企在卷功能,背地里却是算法架构、训练方式、算力底座这三条战线上的全面重构。今天我们把这三个暗战一次性讲透。
🔧 VLA算法:从"识别物体"到"理解世界"
为什么说VLA是质变,不是量变?
VLA(Vision-Language-Action,视觉-语言-行动)这个词今年被反复提及,但很多人没意识到这到底意味着什么——这不是"给自动驾驶加个大模型"这么简单,而是整个范式的推倒重来。图像 → 检测框/车道线 → 轨迹计算 → 控制值每一步都有信息损失,微秒级的上下文被切割,面对复杂场景(如交警手势、文字路牌、上下文礼让)只能靠硬编码规则覆盖,永远有处理不完的边缘Case。信息无损传播,从"识别物体"到"理解意图"。比如看到"前方车辆打右转向灯但没动",VLA能理解"它可能在等行人"而不是"它不走我就绕"——这就是常识推理能力。VLA的四代演进路线
表格
| | |
|---|
| | |
| | |
| VLM + Action Head,统一视觉编码器,语言COT推理 | |
| 原生多模态基础模型,视频-动作联合预训练,隐空间推理 | |
2026年主流厂商的实战路线
小鹏VLA 2.0:今年2月在联合国WP.29上海实车演示中一炮而红——在没有高精度地图的复杂市区零接管跑完全程,标志着VLA从研发走向合规化落地。元戎启行40B参数VLA:抛出了一个尖锐判断——"自动驾驶撞上的不是算力墙,是认知墙"。他们的三体架构很有意思:一个模型同时承担三种角色:Driver(驾驶员):输出驾驶行为
Analyst(分析师):解释当前场景和决策依据
Critic(评估者):评估行为优劣
更关键的是训练方式的转变:从"轨迹监督"转向"视频预测"。当模型被要求预测未来帧时,它必须学习物体运动、空间关系和因果逻辑——训练目标从"模仿动作"变成"建模世界"。卓驭科技VLA World Model:走得更远,直接上了四层架构:多模态输入层(8种模态Token化:视频/雷达/激光/导航/地图/文本/音频/自车状态)
基础表征层(统一时空世界表征,多模态对齐)
动作生成层(未来状态预测→推理→解码)
推理方式从语言COT升级到隐空间推理(Latent Reasoning)
量产门槛:1000 TOPS只是起步
Orin已成为过去时。现在的共识是:没有1000 TOPS算力,你连运行30B-70B参数VLA模型的资格都没有。科技巨头派:NVIDIA Thor(2000TOPS)+ 11V+1L
新势力激进派:自研X600(2250TOPS)+ 纯视觉12V+4D毫米波
传统稳健派:Thor + 备份安全岛 + 11V+3L全冗余
算力军备竞赛结束了,现在是"够用就好"的务实阶段。🌍 英伟达Cosmos:训练成本砍90%的革命
GTC 2026的核心理念:AI要操控物理世界
自动驾驶的瓶颈不在感知,而在世界建模。
过去我们以为多堆传感器、多攒数据就能解决,但实际是——系统识别了所有物体,但还是不知道"它们接下来会干什么",更不知道"我该怎么应对"。Cosmos + Alpamayo VLA:双剑合璧的威力
输入:当前场景+历史轨迹
输出:未来几秒所有物体的运动轨迹、可能的交互、甚至反事实推演("如果我加速会怎样?")
核心能力:物理规律建模、因果关系推理、百万级极端场景生成
输入:Cosmos的预测结果 + 当前状态 + 目标
输出:具体控制指令(油门/刹车/方向盘)
核心能力:从无数可能性中选择最优行动
Cosmos预测所有可能未来 → VLA选择最优路径 → 输出控制指令最震撼的数字:训练成本降低90%
这才是Cosmos真正的革命性意义,不是技术炫技,而是把行业的入场门槛砍到了原来的十分之一。表格
英伟达公开的数据:通过Cosmos生成的合成数据训练,自动驾驶模型的训练成本直接降低90%。以前要烧100亿才能搞定的事,现在10亿就够
以前要百万级车队才能攒的数据,现在AI自己就能生成
以前要等几年才能遇到的极端场景,现在几小时就能生成百万个
英伟达的战略转向:从"卖芯片的军火商"到"基础设施组织者"
现在变了,他们要的是整个行业的绑定:卖训练基础设施; 卖你芯片; 还卖你生成训练数据的工具(Cosmos); 卖仿真闭环 :仿真环境+世界模型+训练工具,全套打包; 卖部署标准:DRIVE Hyperion参考设计,让你直接用这才是真正的护城河——你不仅买我的芯片,还必须用我的数据生成工具、我的仿真环境、我的训练框架。整个行业都被绑在英伟达的战车上。🇨🇳 国产芯片:从"被动替代"到"主动领跑"
华为在自动驾驶领域的技术布局以算力为核心支撑。根据华为乾崑技术大会披露的信息,华为乾崑的算力规模已从2023年的2.8 EFLOPS增长至2026年的60 EFLOPS,29个月增长了约21倍。2026年,华为乾崑预计在智驾领域研发投入超180亿元人民币,算力部分投入近百亿元,未来5年至少再投入700-800亿元。
华为智能汽车解决方案BU CEO靳玉志直言:“算力,是自动驾驶持续发展的基石。”
昇腾950系列的商用进展
2026年1月,华为正式发布昇腾950系列AI芯片,并宣布将于年内分阶段实现量产上市。该系列包括:
昇腾950PR(推理专用):重点优化低精度计算性能,专为AI推理Prefill阶段和推荐业务场景量身打造,全面支持FP8低精度数据格式。FP8算力可达1 PFLOPS,MXFP4算力提升至2 PFLOPS。互联带宽达到2TB/s,较前代产品提升2.5倍。搭载华为自研HiBL 1.0高带宽内存,容量达128GB,内存带宽1.6TB/s。
昇腾950DT(训练专用):聚焦AI训练与推理Decode阶段场景,搭载华为自研HiZQ 2.0 HBM技术,内存容量达144GB,内存访问带宽高达4TB/s。FP8和FP4算力分别达到1P和2P,能有效提升训练效率。
数据来源:华为官方公开数据
这两款芯片共用相同的计算核心,仅通过合封不同的自研高带宽内存实现场景差异化优化,既降低了研发成本,也提升了生态兼容性,便于下游客户快速适配部署。
在国内市场,以华为、地平线等为代表的本土厂商在智驾芯片和解决方案领域呈现快速发展态势。
地平线凭借性价比优势,其智驾芯片2025年累计出货突破1000万套,在自主品牌ADAS市场占据约47.7%份额。Momenta作为技术供应商,合作车企覆盖全球前十大车企中的7家,合作量产车型超130款。
在L2+/高阶辅助驾驶市场,华为ADS系统在国内高阶NOA市场占有率据行业估算约为67.9%。这个赛道的竞争,已演变为芯片算力、算法体验与车企朋友圈的综合较量。
写在最后
今天的自动驾驶,表面上看是车企在比谁的城市NOA覆盖多、谁的接管率低,但本质上是三个底层能力的竞赛:算法能力
:VLA架构能不能让系统从"识别"走向"理解"
训练能力
:世界模型能不能把训练成本降下来、极端场景攒出来
算力能力
:有没有自主可控的算力底座做支撑
这三条战线,每条都决定着最终的胜负。英伟达在用Cosmos构建训练壁垒,华为在用昇腾构建算力主权,各家车企在用VLA构建算法优势。没有人能赢下所有战场,但谁能在至少一条战线上建立不可替代的优势,谁就能在下一个十年活下来。你更看好哪家的技术路线?评论区聊聊~
免责声明:本文内容仅供技术交流参考,不构成任何投资建议或商业推荐。文中数据及观点基于公开信息整理,如有出入请以官方发布为准。------
我是AI技术头部大厂从业人员。关注我,定期分享行业前沿动态和技术分享。