当前位置：首页>自动驾驶>英伟达新招:用“缩放定律”给自动驾驶数据做减法,省下80%算力!

英伟达新招:用“缩放定律”给自动驾驶数据做减法,省下80%算力!

2026-04-17 23:52:49

🐉 龙哥读论文知识星球来了！
还在为自动驾驶模型训练数据太多、算力不够而发愁吗？星球里每天都有像MOSAIC这样能帮你“聪明”选数据、省下80%算力的前沿干货！👇扫码加入「龙哥读论文」知识星球，前沿干货、实用资源一站式拿捏～

龙哥推荐理由：
这篇论文解决了一个非常实际且“烧钱”的问题：如何用更少的数据，训练出更好的自动驾驶模型。 它没有在模型结构上搞花活，而是把目光投向了数据本身，提出了一套名为MOSAIC的通用数据选择框架。思路清晰，实验扎实，结果惊艳（数据效率提升高达80%），对于任何面临数据爆炸和算力瓶颈的AI应用（尤其是自动驾驶、机器人等物理AI领域）都有很强的借鉴意义。英伟达出品，必属精品！

原论文信息如下：

论文标题:
Scaling-Aware Data Selection for End-to-End Autonomous Driving Systems 发表日期:
2026年04月发表单位:
New York University, NVIDIA, University of Ottawa 原文链接:
https://arxiv.org/pdf/2604.08366v1.pdf

数据太多怎么选？自动驾驶训练遇难题

想象一下，你是一家自动驾驶公司的AI负责人。每年，车队在全球各地收集了数百万小时的驾驶录像，涵盖了晴天、雨天、堵车、乡村小道等无数场景。

老板给了你一个“简单”的任务：用这些数据训练出最好的自动驾驶模型。但还有一个“小小”的限制：算力预算有限，你不可能把所有数据都喂给模型训练。

怎么办？随便挑一部分？那可能错过关键场景。按地点均匀采样？但波士顿的环岛和拉斯维加斯的大直道，对模型提升的价值能一样吗？

更头疼的是，评价一个自动驾驶模型的好坏，不是单一分数，而是一篮子指标：不能撞车、要遵守交通灯、得沿着车道线开、乘客坐着还得舒服…… 这些指标有时还会“打架”。一段教你紧急避让的数据，可能提升了“碰撞避免”得分，却拉低了“乘坐舒适度”。

图1完美诠释了这个困境。数据混杂在一起，不同类型的数据（好比来自不同城市）对各项驾驶指标的影响速率完全不同。传统的“一刀切”数据选择方法在这里就抓瞎了。

这时候，英伟达（NVIDIA）的研究团队出手了。他们带来了一套名为MOSAIC的框架，核心思想就一句话：不仅要选数据，还要“聪明地”混合数据。

MOSAIC框架：三步走，智能选数据

MOSAIC，全称是 Mixture Optimization via Scaling-Aware Iterative Collection（通过缩放感知迭代收集进行混合优化）。名字有点长，但拆解开来就三步，像一套精密的组合拳。

第一步：分门别类，并给数据“贴标签”面对杂乱的数据池，先根据特征（比如地理位置、场景语义描述）把它们聚类成几个“域”（Domain）。例如，把所有在“波士顿复杂环岛”采集的数据放一堆，把“拉斯维加斯夜间高速”的数据放另一堆。同一堆里的数据，被认为对模型性能有相似的影响。

光分类还不够，同一堆数据里也有“优等生”和“普通生”。MOSAIC会给每个数据样本计算一个“重要性”分数，分数高的优先录用。这个分数怎么来？简单粗暴：直接用当前模型在这个样本上跑一下，看它能给综合评分带来多少提升。提升多的，自然更重要。

第二步：预测未来，拟合“缩放定律”这是MOSAIC最精髓的一步。它想知道：如果我从“波士顿环岛”这个数据堆里，不断增加训练数据，模型的综合性能会如何变化？ 是飞速提升然后很快饱和，还是缓慢但持久地增长？

为了预测这种变化，MOSAIC引入了缩放定律（Scaling Law）的概念。这个概念在大语言模型（LLM）领域很火，简单说就是模型性能随数据/模型规模增长的一种可预测的数学关系。MOSAIC为每一个数据聚类都拟合一个独立的缩放定律。

具体做法是，先做几次小规模的“试点训练”：比如，从“波士顿环岛”堆里分别取100、200、400个数据加入训练，看模型综合评分提升了多少。然后用这些试点结果，去拟合一个下面这样的饱和指数曲线：

这个公式里，a_i 代表这个数据堆能带来的理论最大提升天花板，τ_i 代表提升速度（饱和速率）。拟合好后，MOSAIC就能像有了水晶球一样，预测从任何一个数据堆里加数据，能带来多少收益。

第三步：精打细算，迭代式“挖矿”现在，我们有了一堆分好类、排好序的“矿脉”（数据聚类），以及每一条矿脉的“产出预测报告”（缩放定律）。手里还有有限的“挖掘预算”（数据选择预算B）。

MOSAIC采用一种贪心但聪明的迭代策略：每一次，都从当前能带来最大“边际收益”的那个数据堆里，挖走最重要的那一份数据。

“边际收益”是经济学概念，这里指再多加一份数据，能多带来多少性能提升。由于缩放定律是饱和曲线，边际收益会随着从同一个堆里挖的数据增多而递减。当“波士顿环岛”堆的边际收益下降到不如“拉斯维加斯高速”堆时，MOSAIC就会果断切换“矿场”。

就这样，一次挖一份，动态调整，直到预算花光。最终选出的数据，是一个在给定预算下，能最大化模型综合性能的、最优的数据混合物。

实验结果：数据省八成，性能还更高

光说不练假把式。论文在两大自动驾驶数据集OpenScene和Navtrain上，用2024年NAVSIM挑战赛的冠军模型Hydra-MDP进行了验证。

评价指标是关键：EPDMS（Extended Predictive Driver Model Score，扩展预测驾驶员模型分数）。这不是一个简单的准确率，而是综合了9项驾驶规则遵守指标（如碰撞避免、交通灯遵守、车道保持、舒适度等）的复合分数，被认为与真实闭路驾驶性能强相关。

MOSAIC对比了多种基线方法：随机选择、基于预测不确定性的选择、追求特征多样性的Coreset，以及另一种先进的数据混合方法Chameleon。

结果如何？我们直接看论文中的核心结果表：

太惊艳了！在OpenScene数据集上，当预算为250个数据片段时，MOSAIC的EPDMS达到了77.38，显著高于其他方法。更厉害的是BRMR（Budget Ratio to Match Random）这个指标，它意思是“要达到随机选择同预算下的性能，本方法需要多少比例的数据”。MOSAIC的BRMR是0.15！这意味着，MOSAIC只用随机选择所需数据量的15%，就能达到后者用100%数据达到的性能，数据效率提升了85%！在Navtrain数据集上，效率提升也高达约70%。

再看详细的指标分解：

从表2可以看出，MOSAIC并非在某一个指标上疯狂“刷分”，而是有策略地实现全面、均衡的提升。它会敏锐地发现模型的短板（例如OpenScene中的DAC-碰撞避免），并优先选择能弥补这些短板的数据，从而实现综合分数（EPDMS）的最大化。

深入剖析：聚类和缩放定律缺一不可

MOSAIC为什么这么强？论文通过一系列分析图揭示了其内在逻辑。我们来看OpenScene实验，数据按地理位置分成了四个城市聚类。

图3（左）展示了拟合出的四条缩放曲线，差异巨大！波士顿和新加坡的数据在初期“性价比”极高，加一点分就涨很多，但很快就饱和了。匹兹堡的数据则属于“长跑型”，提升稳健持久。拉斯维加斯的数据… 嗯，贡献有限。

MOSAIC是如何利用这些信息的呢？看图4：

这张图就像MOSAIC的“决策日记”。在预算很少的初期（前几百次迭代），它几乎只从波士顿和新加坡挖数据，因为这里的边际收益最高。随着这两处“富矿”被开采得差不多，收益下降，匹兹堡稳健的收益曲线变得更有吸引力，成为中期主力。等到后期，所有主要矿脉都接近饱和，它才会去开采之前看不上的拉斯维加斯数据。图3（右）的饼图也印证了这一点。

论文还通过消融实验证明，聚类和缩放定律这两大核心组件缺一不可。只用聚类（不拟合缩放定律）或者只用全局缩放定律（不聚类），效果都远不如完整的MOSAIC。这充分说明了“分域预测，动态调配”这一策略的威力。

局限与展望：通用框架的潜力与挑战

当然，MOSAIC并非完美无缺。它的效果很大程度上依赖于初始聚类的好坏。如果聚类分得不准，把不同性质的数据混在一起，后续的缩放定律预测和选择就会失准。

此外，拟合每个聚类的缩放定律需要进行多次小规模试点训练，这本身也需要额外的计算成本。不过，相比于从头训练大模型的天价成本，这笔“投资”通常是非常划算的。

最令人兴奋的是它的通用性。虽然论文聚焦自动驾驶，但MOSAIC的框架（聚类 -> 分域拟合缩放定律 -> 迭代优化混合）可以迁移到任何面临“数据爆炸、评估指标多元、算力有限”困境的物理AI领域，比如机器人操作、医疗影像分析等。

未来，如何自动化、低成本地获得更好的数据聚类，如何设计更精准的缩放定律模型，以及如何将这套框架与持续学习、在线学习结合，都是非常有价值的研究方向。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

MOSAIC具体指什么？MOSAIC是论文提出框架的名称，全称是 Mixture Optimization via Scaling-Aware Iterative Collection，中文可以理解为“通过缩放感知迭代收集进行混合优化”。它不是一个具体的模型，而是一个通用的数据选择与混合优化流程。

EPDMS包含哪9个指标？EPDMS是自动驾驶领域一个综合性能评分，包含9个子指标：NC（无碰撞）、DAC（驾驶区域合规）、DDC（驾驶员依赖合规）、TLC（交通灯合规）这四个是惩罚项（乘性）；EP（自我进度）、TTC（碰撞时间）、LK（车道保持）、HC（舒适度头动）、EC（舒适度眼动）这五个是平均项（加权平均）。具体计算方式见文中公式。

什么是缩放定律（Scaling Law）？简单说，它是描述模型性能（如精度、损失）随训练数据量、模型参数量或计算量增加而变化的一种可预测的数学规律（常表现为幂律或饱和曲线）。在大语言模型领域广为人知。MOSAIC的创新在于，它为每一个数据子集（聚类）独立拟合一个缩放定律，从而预测加该子集的数据能带来多少性能收益。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~