开幕式现场
一组创纪录的数据:CVPR 仍是 AI 界最庞大、最活跃的阵地
在开幕式现场,组委会公布了一系列令人惊叹的创纪录数据,印证了CVPR依然是当前 AI 界规模最大、最活跃的科研阵地。
中国军团断层式领先
在作者来源国统计中,中国(CN)以 23,233 名作者高居榜首,几乎是第二名美国(US,7,556 人)的三倍以上;在审稿人贡献榜上,中国同样以 10,687 人位列第一。从产出到评审,中国已成为这场范式转移的核心力量。
CVPR 2026 落幕。若用一句话概括它给自动驾驶赛道的信号:行业不再比谁的检测精度更高,而是比谁的“驾驶基础模型”更强。技术路线确实在收敛——但收敛的只是“竞赛的维度”;在“基础模型究竟该怎么建”这件事上,这届会议反而把分歧第一次公开摆上了台面。本文沿七个方向,用本届的论文、keynote 与工作坊议题,拆解这场范式转移。
最后,留一个更大的悬念:当驾驶的胜负手从“感知精度”变成“基础模型”,那些手握最强基座大模型的玩家(OpenAI、Google、xAI 们),会不会有一天“降维”杀入、直接收割这个行业?这或许才是悬在所有自动驾驶公司头顶、最值得警惕的变量。
方向 01
自动驾驶进入 Foundation Model 时代
过去几年,行业注意力集中在 BEV(鸟瞰图)、Occupancy(占据网络)、Transformer 感知,衡量标准是检测 AP、跟踪精度与分割效果。本届的结构性变化很直白:经典 CV(检测、分割、跟踪)在高关注论文中的占比从约 3.8% 跌到约 1.2%,而具身 AI 相关工作的占比从约 2.9% 升到约 6.2%。研究重心从“单点感知精度”转向“通用驾驶智能”。
这一转向在会议结构上一目了然:DriveX(第 4 届,基础模型 + 协同驾驶)、WDFM-EAI(具身 AI 基础模型部署,NVIDIA 的 Jan Kautz 作 keynote)、Foundation Models for V2X 等工作坊扎堆出现。行业已默认一个前提——未来的核心竞争力是基础模型能力,而非单点算法优化。
但请注意一组反例:本届被高亮的 DrivePI 用 0.5B 参数的小模型把某驾驶系统碰撞率降低约 70%,同时反超 7B 参数的对手;另一篇 NoRD 则提出“不依赖显式推理也能开”的数据高效 VLA。两者共同指向一个判断:“基础模型”≠“更大的模型”——这正是后文“路径分化”的伏笔。
方向 02
End-to-End 成为主流技术路线
“感知 → 预测 → 规划 → 控制”的四段式 pipeline,正被统一神经网络直接输出驾驶决策的架构取代。优势清晰:减少模块间信息损失、降低系统复杂度、更易于用大规模数据端到端训练。Tesla 的 keynote《Building Foundational Models for Robotics at Tesla》正是这一路线的代表,核心是海量车队数据闭环与端到端驾驶策略模型。
支撑端到端的“公共考场”也在成熟:开源的 NAVSIM 用非反应式仿真给出 PDM Score,从安全、进度、舒适三个维度统一打分,已成为本届大量端到端工作的标准基准。方法层面的新意集中在“规划怎么生成”:
- WAM-Flow:用离散流匹配(discrete flow matching)做由粗到精的并行运动规划。
- ColaVLA
- IRL-VLA:用奖励世界模型 + PPO 强化学习,在 NAVSIM v2 端到端基准上刷到 SOTA。
一个共性是:端到端不再只追求“轨迹更准”,而是把安全、舒适、效率打包进统一目标函数,并越来越多地引入强化学习。
方向 03
World Model 成为行业最热门方向
2026 年最热的关键词是世界模型。它与传统预测的差别在于维度:传统预测只回答“目标车辆的未来轨迹”,而世界模型预测整个交通环境的未来演化——车辆、行人、信号变化、场景动态。XPENG(小鹏)的 keynote《Building the World Model for Autonomous Driving》系统介绍了其世界模型路线(深思推理、长时序预测、可控生成),并有论文 DrivePTS(驾驶场景生成)入选。
本届世界模型论文呈现“生成 + 推理 + 强化学习”三股合流:
- GenieDrive:物理感知的驾驶世界模型,用 4D 占据引导多视角视频生成(本届亮点工作)。
- VLA-World / CoWorld-VLA:把世界模型的时空预测与 VLA 的推理缝合,后者更以“多专家世界推理”作为规划的显式条件。
- AD-R1
- CoRT-Predictor:提出“风险思维链(Chain of Risk Thought)”的自回归轨迹预测。
- CF-VLA(Counterfactual VLA,Award Candidate):让模型在执行前对计划动作做反事实推理与自我修正。
需澄清一个常见误读:World Model 与 VLA 并非“前后接力、彼此替代”,而是并行竞争、且正在融合的两条路线。上面这批论文,本质都是在为“怎么把预测能力与推理能力合到一起”给出不同答案。
方向 04
生成式仿真成为核心基础设施
长尾场景的稀缺性,直接催生了生成式仿真的爆发:真实长尾数据采集成本极高、难以穷尽,行业因此转向用世界模型、扩散模型、视频生成模型批量制造“难例”。CVPR 2026 的 SAD 仿真工作坊(第 3 届)明确指出——仿真已不再只是评测工具,而是在闭环训练与强化学习中扮演日益重要的角色,议题覆盖传感器仿真、行为建模、强化学习与闭环评测。
产业与方法两端都在发力:NVIDIA 在现场展示了 AlpaSim 与 Alpamayo 2 Super 等仿真栈;aiMotive 的工作坊论文探索“神经渲染 + 物理仿真”的混合渲染,以构建更真实、可扩展的多模态测试环境。论文侧亦有 HorizonWeaver(驾驶场景的多级语义编辑)、GRADE(用自适应轨迹演化生成更真实的驾驶场景)、RoaD(把仿真 rollout 当作示范,用于闭环监督微调)。
提示:关于“真实数据与生成数据的具体配比”,目前并无权威定论。可确定的方向是——生成数据的权重正持续上升,仿真正从“验证环节”变成“训练引擎”。
方向 05
Long-tail 长尾场景成为竞争焦点
常规跟车、车道保持、城市导航已被基本解决;真正决定规模化成败的,是极低频的危险长尾——突发横穿、异常车辆行为、极端天气、特殊施工区。本届把这一点摆到了中央。
Waymo 发布的 WOD-E2E 数据集专门收录 4021 个驾驶片段、发生频率低于 0.03% 的长尾罕见场景,并指出现有端到端基准大多只覆盖常规场景、无法真正检验系统潜力。它还提出新的开环评测指标 RFS(Rater Feedback Score),用“与人类标注者偏好的吻合度”取代传统的“预测轨迹与日志的距离”。配套的工作坊与论文同样聚焦开放世界:AUTOPILOT(第 3 届)主打开放世界学习,处理分布外(OOD)与已知危险,检测、预测并缓解超出标准分类的新物体;论文侧则有 VESPA(开放世界 3D 检测自动标注)、CrashSight(事故场景理解基准)、KnowMTP(知识引导的多智能体轨迹预测)。
这是一个被低估的范式信号:评测标准本身正在从“像不像日志轨迹”转向“是否符合人类的安全判断”。基础模型竞赛比的不只是能力,还有“怎么定义好”。
方向 06
自动驾驶与机器人技术全面融合
本届最具长期意义的信号,是自动驾驶与机器人的边界开始消融。Tesla 把演讲定名为《Building Foundational Models for Robotics at Tesla》而非“for Driving”——等于官方宣告:自动驾驶不再是独立产品,而是更广义机器人 / 具身智能平台的一个应用。新设的 WDFM-EAI 工作坊更直接以“跨自动驾驶、机器人与通用智能体的基础模型部署”为主题(Jan Kautz keynote);E2E3D 工作坊则由 Marco Pavone 主讲下一代空间智能系统。
其内在逻辑是架构同构:一辆自动驾驶汽车 = 传感器 + 世界模型 + 决策系统 + 执行器,与人形机器人高度一致。当一套基础模型可以同时支撑 Robotaxi、人形机器人、工业与服务机器人,World Model 正在成为“车”与“机器人”的共同技术底座。具身 AI 占比的翻倍增长,正是这一融合在论文层面的量化注脚。
方向 07
Robotaxi 进入规模化部署阶段
本届的讨论重点已从“自动驾驶能否实现”转向“如何规模化商业落地”:成本优化、传感器降本、规模化制造、多城市复制、安全运营体系。WAD(第 9 届)的 keynote 阵容——Tesla、XPENG、Waymo,以及 NVIDIA 的 Sanja Fidler(就视觉语言模型发表演讲)——都把落地与商业化作为主线。
与“部署”直接相关的研究也在涌现:PAVE 提出面向量产自动驾驶的端到端评测数据集;AdvML 工作坊基于 DriveLM 发起针对 VLA 的对抗攻击挑战,正面回应“部署级安全”这一规模化前提。竞赛的下半场,正从“技术能不能”转向“生意成不成、够不够安全”。
▌最值得关注的几场分享(WAD 第 9 届)
Tesla · Ashok Elluswamy
Building Foundational Models for Robotics at Tesla
关键词:End-to-End · Foundation Model · Robotics
XPENG 小鹏 · Xianming Liu
Building the World Model for Autonomous Driving
关键词:World Model · 深思推理 · 长时序预测(论文 DrivePTS)
Waymo
围绕长尾场景与端到端评测的工作(以 WOD-E2E 数据集与 RFS 指标为代表)
关键词:Rare Events · 安全评测 · Robotaxi 部署
NVIDIA · Sanja Fidler
视觉语言模型(VLM)在自动驾驶中的角色
关键词:VLM · 仿真栈(AlpaSim / Alpamayo)· 商业化
核心结论:收敛的是目标,分化的是路径
CVPR 2026 的真正价值,不在于宣布谁赢了,而在于改写了竞赛规则——竞争维度从“感知精度”迁移到“驾驶基础模型”。这一层,目标已经收敛。
但一旦追问“基础模型该怎么建”,这届会议同时摆出了三组未收敛的对立:规模派 vs 效率派(做大模型 vs DrivePI / NoRD 式的小模型与无显式推理)、保留语言 vs 去语言化(VLA 阵营 vs 直接“视觉到动作”的路线)、仿真闭环 vs 真实数据闭环(生成式仿真训练 vs 真实里程飞轮)。目标在收敛,路径在分化——而这场关于“怎么建”的分歧,才刚刚开始。
未来 3—5 年,竞争核心将围绕六大主线展开:
① 基础模型 ② 世界模型 ③ 端到端驾驶 ④ 生成式仿真 ⑤ 长尾场景 ⑥ 具身智能
一句话总结:CVPR 2026 最大的变化,不是感知能力提升了多少,而是行业全面转向“驾驶大模型”;World Model,正在成为自动驾驶与具身智能的共同技术底座。
更多CVPR会议信息可以查看官网:https://cvpr.thecvf.com/也可以我的公众号,这里将持续更新高质量的原创内容。搜索「驭见星言-物理AI」,点击上方蓝色字体的公众号名称,或识别文末名片,第一时间获取最新推文。