当前位置：首页>自动驾驶>世界模型 + 蒙特卡洛搜索:把自动驾驶的轨迹生成器搬进足球,给传球做＂反事实＂评估|卡内基梅隆Narasimhan团队CVPR新作

世界模型 + 蒙特卡洛搜索:把自动驾驶的轨迹生成器搬进足球,给传球做＂反事实＂评估|卡内基梅隆Narasimhan团队CVPR新作

2026-06-21 19:11:53

💡引言

在体育数据分析里，传球质量的评估长期受到结果偏见的干扰。一次视野开阔的传球，可能因为队友在随后的对抗中落了下风而没能形成助攻；一次脚法上的失误，也可能因为防守球员滑倒而意外转化成进球。目前常用的 xT、xPass 等指标大多是点估计：它们只对已经发生的那一次动作给出一个静态概率，很难回答"换一种执行方式或换一个传球选项会怎样"这类反事实问题。本文要解读的，是卡内基梅隆大学团队提出的蒙特卡洛传球搜索 MCPS 框架。它引入生成式多智能体轨迹预测，把传球评估从对单一结果的定性，推进到对一整段可能性的概率分布量化。

📊推文概览

研究机构与发表载体： 本研究由卡内基梅隆大学的 Andrew Kang 与 Priya Narasimhan 完成，发表于计算机视觉顶会 CVPR 2026 的 CVSports Workshop。

核心技术产出： 提出了蒙特卡洛传球搜索 MCPS 框架。它能从真实传球中反推出 3D 物理参数，对执行变体和选项变体进行采样，在一个受球轨迹约束的世界模型里向前推演，最终用价值模型输出这次传球的收益概率分布。

跨领域算法迁移： 把自动驾驶领域的离散 Token 自回归轨迹生成器 SMART 迁移到了足球时空追踪数据上。在德甲高保真 3D 公共数据集上，它的多智能体轨迹预测精度优于现有基线模型。

量化指标创新： 提出了均值差分盈余和百分位盈余两个分布感知指标，用数学方式把球员的决策质量和执行稳定性拆分开来。

🛠️核心突破

传球评估的老问题，与既有模型的局限

评估球员在有球时的决策和执行质量，本身就是一件相当复杂的事。随着计算机视觉和多摄像头阵列的普及，高频时空追踪数据已经成为职业足球在教练、球探和引援工作中的标准输入。

但和自动驾驶、机器人这些计算机视觉的高热度分支不同，足球分析长期被封闭的商业生态卡住：高精度数据集、模型权重和评估协议大多掌握在少数数据供应商手里，很少公开，结果就是很多基准难以复现，整个领域的算法迭代也偏慢。最近，一份包含 3D 足球飞行轨迹的德甲高保真追踪数据集开源，给学术界提供了一个把足球分析重新接回主流计算机视觉社区的机会。

图2：TRACAB Gen5 相机布置与 3D 球体坐标采集示意

说明：
该图展示了本文所用公共数据集背后的硬件方案。多机位 TRACAB Gen5 系统负责估计每名球员的平面坐标，以及足球带高度信息的三维坐标，是后续一切物理推演的数据基础。

在这个背景下，传球的量化评估始终要面对两类干扰：执行噪音和下游交互。两次在转播画面里看起来几乎一样的传球，背后成功窗口的宽窄可能相差很大；反过来，一次技术上挑不出毛病的传球，只要接球队友在随后的对抗里落了下风，在传统数据面板上也会被记成一次失败传球。

这种由下游因素造成的结果偏见，让分析师很难从数据里把三件事分开：第一，传球者选的这个选项，预期收益高不高；第二，这个选项本身是不是很脆弱、容错率很低；第三，这次传球的实际执行，也就是力度、角度和旋转，比起同类尝试是更好还是更差。

常用的传统模型在回答这些问题时有明显的结构性短板。xT 和 xPass 是目前用得最广的两个指标，对衡量球员贡献很有参考价值，但它们底层基本都是点估计：要么对已发生的结果给一个固定分值，要么给某条假设传球路线分配一个单一的预期概率，基本没有考虑执行过程中的方差，也没法刻画微小物理偏差被一路放大之后的后果。

现有文献里有一个值得一提的例外，是 William Spearman 等人 2017 年提出的基于物理规则的传球概率模型，也就是常说的球场控制力 Pitch Control。它把一次传球抽象成附近多名球员争抢拦截和控球的概率竞争，可以通过微调足球飞行参数来做假设性的传球推演。这套方法为带分布视角的传球评估打下了概念基础，但仍有两个明显的缺口。一是所谓"理想传球"的分析，容易掩盖一个事实：同一个战术选项往往有好几种不同的高质量执行方式，每一种面对的防守干扰都不一样。二是它高度依赖基于规则的运动学假设，比如假定防守球员都全速冲刺、反应时间固定，这种刚性预设限制了它在反事实推演中还原特定比赛情境下无球球员真实跑动的能力。

为了突破这些限制，卡内基梅隆团队换了一个视角：把一次传球理解成一个概率分布，它由多种合理的执行方式和多种可能的短期走向共同构成。团队借用了强化学习里蒙特卡洛树搜索 MCTS 的搜索与评估思路，但把其中手工设计的模拟器，换成了在大量真实数据上训练出来的、受轨迹约束的生成模型。和 MuZero 这类在纯潜在空间里做规划的算法不同，这套框架直接在原始的时空坐标系里运行，因此保留了运动学层面的可解释性。

图1：Existing Framework 与 Our Framework 对比图

说明：
该图对比了传统传球评估工作流（右侧）和 MCPS 工作流（左侧）。传统方法只对单一的真实结果输出一个概率点估计；MCPS 则先推断初始踢球参数，再生成局部执行变体和全局选项变体，用世界模型模拟轨迹，最后输出一条带明确统计特征的价值增益分布。

价值模型：给任意一个比赛状态打分

要搭起这套蒙特卡洛搜索，先得有一把尺子，能给任意一个合法的比赛状态打出量化分数。在 MCPS 里，这把尺子就是价值模型，它为给定上下文下的比赛状态赋予一个标量分数。

团队采用了业界比较成熟的控球价值 PV 定义：在当前状态下，本方在未来 10 秒内进球的概率，减去对方在未来 10 秒内进球的概率。

为了算出这个值，团队训练了一个基于 Transformer 的网络。它把传球发生前 64 帧的时空上下文作为输入，再用两个二元交叉熵 BCE 预测头，分别输出主队和客队的短期进球概率。

训练里有两个值得注意的工程细节。一是进球事件本身极其稀少，正样本严重不足，团队用预期进球 xG 作为标签权重，把一次射门当作小数形式的"部分进球"来处理，以此缓解样本稀疏的问题。二是为了让模型对场上方位更鲁棒，训练时对所有球员和球的坐标做了随机水平和垂直翻转的数据增强。这样一来，当价值模型面对世界模型生成的各种非标准反事实状态时，仍然能给出比较稳定的评分。

世界模型：用离散自回归生成"没发生的未来"

有了评分系统，MCPS 接下来要解决的核心难题，是怎样逼真地生成那些"并没有真正发生的未来"。世界模型的任务，是在给定一条候选传球轨迹的前提下，预测整个场景在接下来一小段时间里的演变。由于人体运动和球的碰撞本身就充满随机性，模型选择直接在原始坐标空间里，对全部球员和球做多智能体的状态转移建模。

团队把一次传球看作一个单独的转移步：它从传球瞬间开始，到下一次有意义的物理交互结束，比如某名球员完成停球控制、出现明确的防守折射，或者球出界。为了把这个过程闭合起来，世界模型被拆成三个紧密配合的子模块。

第一个是球员轨迹生成器。面对足球公共数据规模有限的现实，连续扩散模型对数据量的要求偏高，团队转而从自动驾驶领域找解法，引入并适配了近期表现不错的 SMART 架构，采用离散 Token 的自回归机制。

数据预处理时，原始 25Hz 的高频追踪先被下采样到 12.5Hz，每 5 帧、也就是 0.4 秒，定义为一个动作 Token。球员运动的 Token 是一个 10 维向量，主要刻画平面速度，通过 K-Means 在标准化位移上聚出 2048 个码字组成词表；球考虑到有明显的高度变化，Token 用 15 维向量来表示 3D 速度，对应 1024 个码字的词表。

推理时，一个仅含解码器的时空 Transformer，结合表示实体类型和所属球队的嵌入向量，根据过去 8 个历史 Token，用掩码交叉熵目标训练，自回归地往前预测 24 个 Token。这种类似语言模型的 Token 化处理，既强化了模型对球轨迹周围因果结构的捕捉，也在只有少量训练数据的情况下，体现出不错的样本效率。

第二个是触球推断模块，负责判断在不断生成的轨迹里，哪名球员会在什么时候第一个碰到球。团队用"速度突变加空间接近"的启发式规则，构造了逐帧的触球监督信号。这个模块用生存分析风格的目标来优化：既有针对触球风险的二元交叉熵损失，也有在触球帧上判别触球球员身份的加权交叉熵损失。

第三个是触球后状态预测模块。一旦预测到触球，就要算出球在碰撞后的三维速度变化，才能判断球权归属或反弹方向。这个模块用一个对角高斯回归器来构建，通过掩码高斯负对数似然来训练。

图5：多智能体轨迹预测对比图

说明：
该图对比了 SMART 模型生成的轨迹与真实比赛轨迹。左侧是真实发生的球员和球的运动路径，右侧是世界模型在给定传球条件下自回归采样出的 20 个候选未来里表现最好的那一个，能看出离散 Token 架构在还原球员跑位和防守阵型跟进上的效果。

这三个模块合在一起，构成了 MCPS 的轨迹推演能力。文献在测试集上做了消融实验。多智能体轨迹预测这块，大多数先进模型都是商业公司用专有数据训练、且不公开权重，团队选了目前唯一公开的多智能体检查点 Sports-Traj，加上三种基础架构一起做横向对比。

轨迹预测模型	minADE20 ↓	minFDE20 ↓
静态基线	6.8	13.4
匀速基线	5.0	10.1
基础 Transformer 回归	3.8	7.5
Sports-Traj，当前开源标杆	4.2	6.9
本文方法，基于 SMART 适配	2.4	4.7

可以看到，基于离散 Token 自回归的 SMART 适配模型，在 minADE 和 minFDE 上都明显好于此前的开源标杆 Sports-Traj 和几个简单基线，为整个 MCPS 提供了比较可靠的底层轨迹仿真。

在"谁会触球"这个子任务上，受测试设定本身比较苛刻的影响，结果展示的是一个合理的逻辑下限。下表把 Player-to-Touch 模块和 Spearman、Anzer 两个模型做了对比。要说明的是，这是一个故意吃亏的比较：基线模型只在真实轨迹上运行、并针对这个任务做了专门优化，而本文的模型是在生成器产出的、带有不确定性的假设未来里去推断接收者的。

预测模型	接收者 Top-1 准确率 ↑	传球成功准确率 ↑	传球成功 AUROC ↑
Spearman，原文报告	0.679	0.805	~0.85
Anzer，原文报告	0.899	0.915	0.934
本文方法，生成未来 + 触球预测	0.605	0.777	0.799

触球后状态推断 Ball-at-Touch 这块，掩码负对数似然 NLL 的消融结果说明数据增强是有必要的：常量基线是 0.10，不加增强的模型降到 -0.61，加了增强的完整模型进一步到 -0.90，对受控触球后物理状态的拟合更好。

还有一点值得如实交代，就是价值模型本身的"体检"结果。在单独判别"10 秒内是否会射门"这件事上，本文 PV 模型的 Shot AUROC 只有 0.73，略低于只看球位置的 EPV 基线的 0.78，只是 Brier 分数稍好一点。这说明在现有数据规模下，PV 模型并没有在射门窗口判别上做得更强。作者保留它的理由是，它额外学到了一些球位置之外的上下文信息，足以支撑反事实推演里的相对比较。

策略模型：局部与全局两套反事实采样

世界模型要跑起来，得先给它喂入传球参数。所以 MCPS 必须从真实追踪数据里，把这次传球的初始物理状态反推出来。这一步并不简单：光学追踪在踢球帧的时间标定上常有偏差，直接读取那一帧的球速、再套简单物理公式算出来的抛物线，往往和观测到的真实飞行轨迹对不上。

团队为此搭了一个交叉熵方法 CEM 风格的求解器，里面内嵌了一个考虑重力、空气阻力、恢复系数和草地摩擦力等全局常数的球体飞行模拟器。通过最小化到首次交互为止的轨迹误差，求解器能反推出传球初始的三维速度和一个旋转参数代理。只有那些拟合轨迹和真实飞行几乎完全吻合的样本，才会被保留下来进入后续评估。

拿到真实的 θ_obs 参数后，策略模型会做蒙特卡洛搜索，为每一次观测到的传球构造两组反事实动作集。

局部搜索，对应执行噪音： 算法在拟合出的真实参数附近，生成 256 个局部变体 {θ_loc⁽ⁱ⁾}_i=1^N，对出球方向、速度、垂直仰角和旋转分量施加很小的扰动。这一步是为了模拟真实球员在做同一个技术动作时，难以避免的神经肌肉层面的随机误差。

全局搜索，对应替代选项： 算法再生成 256 个全局变体 {θ_glob^(j)}_j=1^M，在出球方向上做大幅度改变，配合中等的速度离散和较小的旋转离散。系统还根据拟合传球流形的高百分位统计量，给平面速度、垂直速度和旋转幅度设了硬上限，保证生成的选项不会突破人体生理极限。这一步模拟的，是传球瞬间视野里其他可能的战术选择。

图3：MCPS 工作流全景图

说明：
该图展示了每一次模拟传球的计算流程：先输入含 3D 速度与旋转的踢球参数，经飞行物理引擎计算，生成多智能体的跟随轨迹，再预测触球球员与触球时间、推断触球后的球状态，最后调用价值模型，给这次动作打出收益评分。

分布感知的评估指标与一个实证案例

完成反事实采样和世界模型推演之后，MCPS 会给每个变体算一个控球价值增益：ΔPV(θ) = PV(s′(θ)) − PV(s)。然后把真实传球的增益 ΔPV_obs 放进由大量变体构成的经验分布里做对比，由此定义两个互补的执行盈余指标。

均值差分盈余 S_mean： 它衡量的是真实传球的增益，和反事实变体平均增益之间的差。公式是 S_mean = ΔPV_obs − (1/K)Σ_k=1^KΔPV(θ^(k))。在全局搜索空间里聚合这个指标，能比较清楚地反映球员的决策质量。如果一名球员的 S_mean 长期为正且数值偏高，说明他总能在一堆平庸甚至低效的传球路线里，挑出对球队推进最有威胁的那一条。

百分位盈余 S_pct： 它算的是真实传球的增益，在全部反事实变体分布里所处的百分位，取值在 0 到 1 之间。公式是 S_pct = (1/K)Σ_k=1^K 1[ΔPV_obs ≥ ΔPV(θ^(k))]。在局部搜索空间里聚合这个指标，反映的是传球的抗风险能力和执行优劣。S_pct 高，说明这次传球不光选对了路线，物理参数还恰好落在这条路线"成功窗口"的中心位置，就算加上一定的执行噪音，收益也不会断崖式下滑。

团队在德甲 2022/23 赛季的一场测试比赛里，对 MCPS 做了实证分析，对阵双方是波鸿和勒沃库森，时间是 2023 年 5 月 27 日。那场波鸿 3-0 取胜，进球者是 Stöger、Asano 和 Förster。为了保证分析可靠，团队把无法精确反推参数的样本过滤掉，只保留了能够精确拟合参数的 512 次传球。

在单次传球这个层面，文献挑了勒沃库森中场维尔茨的一次挑传作为案例。

图4：局部搜索变体与 PV 增益分布图

说明：
图左侧是维尔茨真实传球的 3D 轨迹和采样出的局部变体轨迹，颜色深浅对应 ΔPV 的高低。右上直方图是局部扰动下这条传球意图衍生出的反事实价值分布，红色虚线为真实传球；左下散点图则画出增益随参数偏离度增加的衰减情况，把这次传球的"脆弱性"量化了出来。

在宏观层面，MCPS 把这些底层推演按球员维度做了聚合排序，分别给出了全局均值差分盈余的排行榜，和局部百分位盈余的排行榜。结果比较清楚地显示出两类情况：一类球员的传球价值在面对局部执行噪音时相当稳定，也就是局部百分位盈余较高；而在全局替代选项的对照下，系统也能看出某些球员在特定场面里，因为决策视野受限而错过了潜在更高价值的传球路线，留下了所谓的机会缺口。这种双向拆解，正好补上了传统"传球成功率"指标看不到的那部分信息。

图6与图7：全局均值差分盈余排行榜 / 局部百分位盈余排行榜

说明：
两张柱状图分别是按球员聚合的排行榜。图6看的是全局搜索下，每名球员真实传球减去反事实平均的 ΔPV，更偏向决策质量；图7看的是局部搜索下，每名球员真实传球在反事实分布里的平均百分位，更偏向执行稳定性。

🚀技术应用猜想

下面几点是我结合论文做的延伸推演，更多是方向性的设想，而不是论文已经验证的结论。MCPS 以及它背后这套"基于生成式世界模型的运动分析"思路，并不只是为了发论文而拼起来的一组算法。它通过比较扎实的物理空间建模和分布概率计算，给体育产业的一些商业和工程场景，提供了一个颗粒度更细的接口。

智能球探与动态估值：把"决策"和"执行"分开看

在高度数据化的现代转会市场里，球探和引援部门最头疼的，是怎么从一大堆数据面板里把球员的具体特质拆出来。传统报告很难说清楚：一名球员助攻数偏低，到底是因为缺乏撕开防线的视野，还是因为脚法不够稳、传球总是差一点。

借助 MCPS 的两个聚合指标，俱乐部可以搭一套新的动态估值模型。如果一整个赛季扫下来，发现某个年轻后腰在全局搜索的均值差分盈余上长期排在联赛前列，说明他对空间和时机的阅读能力确实出众；如果他在局部搜索的百分位盈余上排名一般，那更多只是说明脚下控制和触球手感还需要打磨。前一种能力更接近难以速成的天赋，后一种则更偏向可以靠训练补上的短板。把天赋和执行从数据底层拆开，能帮俱乐部更有效地配置转会预算，也能优化青训的筛选标准。

战术教练的"反事实"数字沙盘

长期以来，赛后战术复盘很依赖主教练的经验和录像回放。当教练说"你当时要是把球大范围转移到右路弱侧，咱们早就进了"，这种假设往往默认防守球员是站着不动的，球员心里未必真服气。

引入 MCPS 之后，复盘可以变成一种交互式的数字推演。教练组在触控屏上锁定某一传球帧，拖动轨迹线，强行输入一个全局搜索变体，比如把直塞改成横向转移。底层的 SMART 轨迹生成器会据此推演出对方防守链条面对新路线时怎么协同回收、怎么调整重心，并在几秒内给出这条路线下的进球概率估计。这种基于多智能体博弈生成的推演，既给战术纠偏提供了量化依据，也相当于一个针对特定对手防守习惯的赛前模拟器。

赛事转播：把传球的"脆弱性"画出来

现在转播商在屏幕边上贴的"预期进球 0.2"或者"传球成功率预测"，传达的只是一个干巴巴的最终数字，观众很难体会这个数字背后的物理难度。

有了分布感知这套评估，转播机构可以用 AR 技术，在慢动作回放里直接在草皮上渲染出这次传球的"成功窗口"。比如一记穿透高压防线的直塞，画面可以在接球点附近高亮出一块很窄的区域，并标注出它在力度和角度上的容错空间有多小。把一次精彩技术动作在执行层面的高脆弱、高敏感直观地摆给观众看，能明显提升观赛代入感，也给转播商打开了新的数据内容和赞助空间。

实时数据服务与风控建模

对体育数据服务商和实时风控系统来说，控球价值 PV 的微观变化是衡量场上局势的重要信号。传统模型对场面的切片往往比较粗。如果接入 MCPS 的轻量化局部搜索接口，就能在一次传球还在空中的极短时间内，推演出上百种落点变体和它们各自的进球概率分布。这种对门将出击失误、后卫意外冒顶等极端长尾事件的前瞻计算，可以帮助风控模型更平稳地应对局势的剧烈波动。

💬延伸讨论

MCPS 真正值得关注的长期价值，在于它点明了体育数据分析的一条底层演进路线：从被动的"描述性统计回归"，走向主动的"生成式时空物理模拟"。

过去的体育分析范式，习惯在高度压缩的工程特征上建模，比如球员到球门的直线距离、传球路线上的防守人数、速度标量等等。但这项研究说明，只要前端追踪数据的保真度够高，比如引入带 Z 轴高度和自转的 3D 球轨迹，完全可以直接借鉴自动驾驶处理复杂路况的离散自回归 Token 机制，去搭一个在原生时空坐标系里运行的体育世界模型。

把世界模型和蒙特卡洛搜索绑在一起的这个思路，和近年强化学习的一些成果是相互呼应的。无论是结合树搜索与学习型动态模型、在多种棋类和 Atari 上表现突出的 MuZero，还是靠潜在动态和想象推演展现出泛化能力的 DreamerV3，又或者强调高保真扩散模型对下游策略性能很关键的 DIAMOND，都在说明"通过学习环境动态来做决策规划"这件事的潜力。

在更广义的竞技运动里，用物理模型辅助策略的尝试其实已经出现：从台球领域基于"视觉想象"的预测性物理模型，到十瓶保龄球里用来寻找容错空间的刚体模拟器，再到冰壶里结合感知和领域专用 MCTS 规划器、应对连续动作空间的探索，都印证了物理仿真在竞技决策中的价值。当然，和任何前沿探索一样，现在的 MCPS 仍然受到一些现实条件的限制，这些限制也指明了后续的方向。

首先是数据规模和对齐噪音。目前所有子模型都只在 7 场公开比赛上训练，而且天然带着计算机视觉追踪的系统误差，比如二维球员坐标和三维球坐标之间的割裂，以及事件时间戳和真实踢球帧之间的微小错位。后面需要引入体量更大的数据，并在模型里显式地处理观测噪音，让评估排名更稳定。

其次是世界模型的设定偏差。现在的推演还没有纳入球员身份和战术角色，生成的轨迹可能偏离某支球队的战术习惯，碰到激烈的空中争顶、门将极限扑救、高强度身体对抗这类罕见场景时也还会失真。往后需要把"模型本身不够准"带来的误差，和"比赛本就充满偶然"带来的随机性区分开。

最后是推演视野和采样分布的局限。出于算力和价值衰减的考虑，现在的 MCPS 在第一次有意义的触球之后就停止推演。怎样把视野合理地延伸到多次交互，比如第二落点的争抢、连续的撞墙配合，同时又不让时间线拉长后的模拟误差被层层放大，会是下一个比较难啃的问题。另外，现在的局部和全局采样器设计还比较基础，未来可以接入受接收者约束的先验，或者球场控制力掩码，来生成更贴近真实战术逻辑的选项分布。

结论：
足球、篮球这类复杂的多智能体项目，正越来越多地走向以动态推演和概率预判为主的"数字孪生"方向。MCPS 给出了一条相对清晰的路线，说明物理世界里复杂的交互，是可以用数据驱动的方式较高精度地拟合出来的。在这个框架下，衡量一次传球价值的依据，从最终比分扩展到了它在大量模拟走向中体现出的整体可能性。

https://arxiv.org/pdf/2606.11120
原文地址

欢迎体育人共建AI Agent生态

智体研团队正在招募实习生，方向包括科研与产品两类，研究领域聚焦动作捕捉以及相关的人体运动分析与建模。

科研方向偏算法与数据，主要参与运动信号处理、步态与姿态建模等工作，具体内容会结合个人背景与项目需求安排。产品方向偏落地，关注相关技术如何转化为可用的产品形态，参与需求调研、原型搭建与迭代推进。

我们希望你对动作捕捉、可穿戴或运动健康领域有真实兴趣，愿意动手。有信号处理、机器学习、运动科学或人机交互相关基础者优先，基础一般但学习意愿强的同学也欢迎沟通。时间上，希望每周能保证若干天稳定到岗。

工作地点为上海，待遇面议。有意者请将简历发送至，并简要说明意向方向与个人兴趣。

联系我们：heluanluan@wiseyoung.cn

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

世界模型 + 蒙特卡洛搜索:把自动驾驶的轨迹生成器搬进足球,给传球做＂反事实＂评估|卡内基梅隆Narasimhan团队CVPR新作

💡引言

📊推文概览