当前位置：首页>自动驾驶>莫斯科大学新作XSIM:自动驾驶仿真“一统江湖”,相机激光雷达都能逼真渲染

莫斯科大学新作XSIM:自动驾驶仿真“一统江湖”,相机激光雷达都能逼真渲染

2026-02-09 04:37:22

辞旧迎新，知识续航！「龙哥读论文」陪你跨年，知识星球会员优惠券限时限量放送！
🐉 「龙哥读论文」知识星球：让你看论文像刷视频一样简单！公众号每日8篇拆解不够看？星球无上限更AI领域论文、资讯、招聘、招博、开源代码，一站式干货，每日2分钟刷完即赚！👇扫码加入「龙哥读论文」知识星球，领取优惠，前沿干货、实用资源一站式拿捏～

龙哥推荐理由：
自动驾驶仿真一直是个“老大难”：相机和激光雷达（LiDAR）的渲染模型各玩各的，逼真度和效率难以兼得。这篇来自莫斯科大学的新作XSIM，直接来了个“大一统”！它巧妙解决了球形卷帘快门LiDAR的渲染顽疾，还让相机和LiDAR共享一个高质量的场景表示。实验数据全面领先，代码也已开源，对于自动驾驶仿真和3D重建领域的研究者和工程师来说，实用性和启发性都拉满了！

原论文信息如下：

论文标题:
Unified Sensor Simulation for Autonomous Driving 发表日期:
2026年02月发表单位:
Lomonosov Moscow State University (莫斯科罗蒙诺索夫国立大学) 原文链接:
https://arxiv.org/pdf/2602.05617v1.pdf 开源代码链接:
https://github.com/whesense/XSIM

试想一下，你正在研发自动驾驶系统，需要在虚拟世界里让汽车“预演”无数次车祸边缘的惊险操作。这个虚拟世界的基石，就是传感器仿真——你得精准模拟出车上的摄像头拍到的画面，以及激光雷达（LiDAR）扫描出的3D点云。问题来了：相机仿真要的是“逼真”，讲究光影、反射；雷达仿真要的是“精确”，一毫米的误差可能就让车撞上。以前，这俩“兄弟”的仿真模型基本是各玩各的，用一个模型就难以兼顾对方的需求。

这篇来自莫斯科大学团队的论文《Unified Sensor Simulation for Autonomous Driving》提出的XSIM框架，就像一位“全能翻译官”，它用一套统一的“语言”（基于3DGUT的高斯泼溅），让相机和激光雷达的仿真首次在高质量层面实现了和谐统一。更酷的是，它还解决了一个困扰业界许久的“球形卷帘快门”渲染顽疾。

打破仿真壁垒：XSIM如何统一自动驾驶的“眼睛”和“雷达”？

在深入XSIM的黑科技之前，我们先聊聊它立足的基石——3D高斯泼溅（3D Gaussian Splatting, 3DGS）。你可以把3DGS想象成用一堆“有弹性的彩色小棉花糖”来填充和表示整个3D场景。每个“棉花糖”（高斯粒子）在3D空间中有自己的位置、大小、旋转、颜色和不透明度。渲染时，把这些“棉花糖”按照一定规则投影到2D屏幕上并混合起来，就能得到一张图片。

传统3DGS在投影这些粒子时，用的是线性近似，这对于普通针孔相机还好，但遇到复杂的相机畸变或者卷帘快门（Rolling Shutter）时就捉襟见肘了。卷帘快门是啥？简单说，就是传感器不是瞬间拍完整张照片，而是一行一行从上到下或从左到右扫描。在高速运动的自动驾驶场景中，这种时间差会导致图像扭曲（比如垂直的楼拍歪了）。

这时候，XSIM选择的底层技术——3DGUT（3D Gaussian Unscented Transform， 3D高斯无迹变换泼溅）就登场了。3DGUT的核心是用无迹变换（Unscented Transform, UT）来投影高斯粒子。UT可以理解为一种更聪明的采样方式：它从一个高斯分布（3D“棉花糖”）中选取几个有代表性的点（Sigma点），分别用复杂的相机模型去投影，然后用这些投影后的点来反推出一个2D高斯形状。这就像你想知道一个气球投在扭曲哈哈镜上的样子，与其猜，不如在气球表面选几个点，分别去照镜子，再把这些点的位置连起来，就能更准确地知道气球的投影形状了。

因此，3DGUT天生就擅长处理非线性的相机模型，包括带畸变和卷帘快门的相机。XSIM正是站在3DGUT的肩膀上，提出了一个统一的、广义的卷帘快门建模框架。它不再为相机和LiDAR分别写两套渲染代码，而是用同一套数学语言来描述两者在扫描成像过程中的时间演变。这使得用一套模型同时高质量地渲染RGB图像和LiDAR点云成为可能。

核心难题：当高斯泼溅遇上球形卷帘快门

虽然3DGUT很强，但把它用在自动驾驶最关键的传感器之一——旋转式激光雷达（LiDAR）上时，一个隐藏的“魔鬼细节”就暴露了。

LiDAR可以看作一个球形卷帘快门相机。它一边旋转，一边发射激光束，记录返回的时间和角度，生成一幅360度的“距离图像”。这里的“方位角（Azimuth）”是一个从-π到π（或0到2π）周期性变化的值。问题就出在这个周期性和卷帘快门的时间不连续性上。

图4：发生在方位角边界附近的LiDAR不连续性。 a) 即使传感器静止并恰好覆盖360度，由于卷帘快门造成的时间不连续性也可能导致物体被观测两次。 b) 自车运动与卷帘快门结合导致空间不连续性。

想象一个场景（对应图4a）：一辆车停在旋转的LiDAR旁边。LiDAR扫描一周，车头部分在扫描快结束时被看到，车尾部分在扫描刚开始时被看到。由于卷帘快门，扫描开始和结束的“时间”相差了整整一个扫描周期，导致同一辆车在距离图像上被记录了两次！如果车在移动（图4b），情况就更复杂了，会产生空间上的不连续。

现在，一个横跨方位角边界（比如-π/π附近）的3D高斯“棉花糖”要被投影了。它的Sigma点可能会落在不同的方位角周期里（比如有的点在周期k=0，有的在k=+1）。标准的UT会假设投影结果是一个单峰的2D高斯（一个“团”）。但实际上，由于上述的时间/空间不连续性，这个3D粒子可能被投影成两个完全分离的、形状不同的2D高斯（两个“团”）。

图1：LiDAR渲染的合成示例。在靠近方位角不连续边界的区域，标准的3DGUT投影导致部分缺失和扭曲的距离图像渲染。我们的相位建模方法缓解了这个问题，并有效处理了因卷帘快门而被观测两次的表面。

图1这个合成例子清晰地展示了问题：标准3DGUT投影在边界处产生了缺失和严重的形状扭曲。而UT强行用单峰高斯去拟合一个双峰分布，就会产生一个又大又歪、完全失真的投影，导致后续的渲染（如深度排序、像素着色）全部出错。

解题密钥：相位建模与双不透明度设计

面对这个“单峰”假设在多模态现实面前的崩溃，XSIM给出了两个优雅而关键的解决方案。

钥匙一：相位建模机制

既然问题源于方位角的周期性和UT的单峰假设，那就主动拥抱多峰可能性。XSIM提出的相位建模（Phase Modeling）机制，核心思想是：显式地考虑高斯粒子可能出现在多个方位角周期（相位）的情况。

图6：单个高斯粒子横跨滚动快门球形相机的方位角边界 φ=±π 时，会投影成两个独立的具有不同2D协方差矩阵的2D高斯。无迹变换提供了粒子投影的单峰后验近似，导致过大且形状错误的投影。我们的相位建模机制通过考虑从可见范围偏移 ±π 的两次额外投影，实现了双峰2D高斯投影。通过执行偏移半个周期的投影，我们处理了其Sigma点落入多个方位角周期的粒子。

具体怎么做呢？如图6所示，对于一个正在渲染的方位角区间（例如从-π到π），XSIM不仅计算粒子在“当前相位”（k=0）的投影，还会主动计算它在“相邻相位”（k=-1和k=+1）的投影。相当于问：“这个‘棉花糖’有没有可能因为时间不连续，在上一个扫描周期或下一个扫描周期也被看到？”

对于每一个相位，都独立地使用UT计算一组2D高斯锥形（用于后续光栅化分块）和深度值。最后，所有有效的投影（即确实有Sigma点落入该区间的投影）都会被传递到下一个渲染阶段。这样一来，一个3D高斯粒子在边界处就可能产生两个独立的、形状正确的2D投影，完美匹配了物理现实。这从根本上解决了边界处的投影错误，从而得到图1中右边那样完整、准确的LiDAR距离图像。

钥匙二：双不透明度3D高斯表示

解决了投影的几何难题，还有一个“材质”层面的冲突需要调和。相机和LiDAR对世界的“看法”本质不同：

对于LiDAR（几何传感器）：它测量的是精确的表面距离。理想情况下，一个表面应该由一个完全不透明（opaque）的高斯粒子来表示，这样射线一碰到它就停止，测得的深度才准确。

对于相机（外观传感器）：要渲染出逼真的效果，如车窗玻璃的透射、车漆的高光反射，往往需要沿着一条视线排列多个半透明（semi-transparent）的高斯粒子来模拟复杂的光路和材质交互。

如果强迫所有高斯粒子在两种传感器下共享同一个不透明度，就会导致妥协：要么为了外观牺牲几何精度，要么为了几何牺牲外观质量。

XSIM的解决方案简单又直接：给每个3D高斯粒子配备两个独立的不透明度参数！一个是 σ_c 用于相机渲染，另一个是 σ_L 用于LiDAR渲染。在训练时，这两个参数被联合优化，同时用一个正则化损失 ℒ_opacity 让它们不至于相差太远，保持基本的物理一致性。

图5：单独建模LiDAR不透明度（LO）解决了几何与颜色分布的失配，并提高了对于半透明表面和镜面反射的外观建模质量。

如图5所示，这个设计带来了显著的好处。对于车窗（半透明）和车漆（高光）区域，LiDAR可以“看到”一个坚实的不透明表面，获得准确的几何；而相机则可以利用多个半透明粒子渲染出丰富的反射和透射效果，画面更逼真。鱼与熊掌，终于可以兼得。

实验验证：多项指标全面领先，几何精度大幅提升

光说不练假把式。XSIM在Waymo、Argoverse 2和PandaSet这三个主流自动驾驶数据集上进行了全面测试，对比了包括SplatAD、OmniRE、NeuRAD等在内的多个近期SOTA方法。结果相当有说服力。

表1：三个数据集上场景重建和新视角合成场景的定量结果。我们报告了RGB图像质量指标（PSNR, SSIM, LPIPS）和通过倒角距离（CD）测量的LiDAR重建精度。我们的框架在所有数据集和场景中都达到了最先进的性能，特别是在LiDAR渲染方面实现了误差的大幅降低。

看表1，在最具挑战性的Waymo数据集上：

图像质量（重建任务）：PSNR高达30.75，比之前的SOTA（SplatAD）提升了近3个点；SSIM达到0.903，提升了约3.8%；衡量感知相似度的LPIPS也降低了20.6%。这是全面提升。

几何精度（LiDAR CD指标）：这更是XSIM的杀手锏。在Waymo重建任务中，倒角距离（CD）低至0.08，比SplatAD（0.82）降低了约90%（提升了一个数量级）！在新视角合成任务中也有4.5倍的误差降低。这说明其模拟的LiDAR点云与真实数据在几何上几乎完全一致。

图7：LiDAR渲染。不同方法渲染的LiDAR点云对比。先前的方法表现出扭曲的扫描线模式和不完整的几何结构，包括行人等易受伤害的道路使用者。

定性的LiDAR渲染结果（图7）一目了然。对比方法渲染的点云出现了明显的扫描线扭曲、断裂，甚至把行人这样的关键目标都“弄丢”了。而XSIM渲染的点云不仅环状结构清晰完整，而且几何细节（如行人、车辆轮廓）高度保真。

图2：新视角合成（车道偏移3米）。Waymo开放数据集上的定性比较表明，XSIM提供的场景表示可以从新的自车轨迹中一致地渲染出来。

在新视角合成的极端测试中（图2），让自车在训练轨迹的基础上横向偏移3米进行渲染。XSIM依然能生成高度一致且清晰的画面，而对比方法则出现了模糊、鬼影和伪影。这说明XSIM学习到的场景表示具有极强的几何一致性和稳定性。

表2：在Waymo数据集（一半分割）上新视角合成的消融研究。每一行对应于相对于父配置禁用一个组件。

消融实验（表2）也扎实地证明了每个组件的有效性。移除相机卷帘快门建模、LiDAR不透明度分离、LiDAR卷帘快门建模或相位建模机制，都会导致图像质量（PSNR， SSIM）和/或几何精度（CD）的明显下降。这验证了XSIM的设计不是花架子，每一个模块都贡献了实实在在的性能增益。

未来展望：更逼真、更高效的仿真之路

XSIM在统一相机与LiDAR仿真的道路上迈出了坚实的一步，但自动驾驶仿真这座大厦的建造远未完工。基于它的成功，我们可以预见几个充满潜力的方向：

极端天气与光照模拟：雨、雪、雾、夜间、强逆光……这些才是自动驾驶的“魔鬼考场”。未来的仿真框架需要集成物理级的光线传输和天气粒子模型，在XSIM提供的精确几何与外观基础上，生成极具挑战性的测试场景。

实时性与闭环仿真：目前这类方法主要还是“开环”的，即先重建，再渲染。未来的方向可能是与游戏引擎或专用仿真器结合，实现“感知-决策-控制-世界状态更新”的实时闭环仿真，让AI司机在无限循环的虚拟世界中真正学会驾驶。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

这篇论文解决的核心问题是什么？解决自动驾驶仿真中，相机和激光雷达（LiDAR）渲染模型不统一、难以同时保证高逼真外观和高精度几何的问题。特别是解决了基于3D高斯泼溅的方法在模拟旋转式LiDAR（球形卷帘快门相机）时，在方位角边界处产生的严重投影失真和缺失问题。

“相位建模”具体是什么意思？这是XSIM的核心创新之一。由于LiDAR的方位角是周期性的（-π到π循环），且卷帘快门导致时间不连续，一个物体可能在相邻扫描周期被看到两次。相位建模就是主动考虑一个3D高斯粒子可能出现在当前、前一个或后一个方位角周期（即不同“相位”）的情况。它通过为每个可能的相位独立计算投影，来正确处理那些横跨边界、本应产生多个分离投影的粒子，从而避免标准方法产生的巨大单峰投影错误。

3DGUT和传统3DGS的EWA Splatting有什么区别？核心区别在于如何将3D高斯粒子投影到2D图像平面。传统EWA Splatting使用基于单个点的线性近似，对于复杂的相机模型（如带畸变、卷帘快门）误差大。而3DGUT使用无迹变换（UT），从3D高斯中采样多个点分别进行非线性投影，然后用这些点拟合2D高斯，这种方式能更准确地模拟复杂相机模型的投影效果，为统一仿真各种传感器奠定了基础。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~

龙哥点评

论文创新性分数：★★★★★
在统一的传感器仿真框架下，精准识别并解决了3DGUT在球形卷帘快门LiDAR上的根本性缺陷（方位角边界多峰投影问题），提出的“相位建模”机制构思巧妙且有效。“双不透明度”设计则从物理感知差异出发，干净利落地解决了外观与几何建模的固有矛盾。这两点都是具有高度原创性的贡献。

实验合理度：★★★★★
在Waymo、Argoverse2、PandaSet三大权威数据集上进行了全面测试，覆盖场景重建和新视角合成两大任务。对比基线选取广泛且均为近期顶会SOTA，包括NeRF和3DGS两大流派。指标涵盖图像质量（PSNR/SSIM/LPIPS）和几何精度（倒角距离），消融实验扎实，充分证明了每个组件的必要性。实验设计无可挑剔。

学术研究价值：★★★★★
为自动驾驶仿真领域提供了一个强大、统一的新范式。其“相位建模”思想对任何涉及周期性参数或边界不连续的渲染问题都有启发意义。“传感器特性解耦”的设计思路（如双不透明度）也可推广到更多多模态融合任务中。论文代码已开源，必将推动整个领域在高质量传感器仿真方向的发展。

稳定性：★★★★☆
在论文设定的自动驾驶场景重建和新视角合成任务上，表现出极高的稳定性和渲染质量，远优于对比方法。但由于其基于3DGS，对于极端新颖视角（如从未观察过的区域）或场景的大规模外推，其稳定性仍受限于基础表示方法，可能会产生伪影或崩溃。在已知观测范围内非常稳定。

适应性以及泛化能力：★★★★☆
框架本身设计为支持任意相机模型，理论上可适应各种相机和LiDAR。但当前实验集中在车载传感器和城市道路场景。对于室内、非结构化环境、或者其他类型的深度传感器，其泛化能力有待验证。不过其核心原理并不局限于特定场景，泛化潜力良好。

硬件需求及成本：★★★☆☆
基于3D高斯泼溅的方法在渲染时效率很高，可以达到实时或准实时。但训练过程仍需要大量的GPU内存和计算时间，特别是对于长序列、多动态目标的自动驾驶场景。相位建模等操作也会增加一定的计算开销。需要高端GPU进行训练，推理部署成本相对较低。

复现难度：★★★★★
代码已在GitHub上开源（https://github.com/whesense/XSIM）。论文对方法描述详细，且基于已被广泛研究的3DGS生态，复现路径清晰。具备3DGS和CUDA编程相关经验的团队复现难度中等。

产品化成熟度：★★★☆☆
在自动驾驶仿真流水线中的“场景重建与传感器数据增强”环节，已具备很高的产品化潜力。可用于快速生成高保真的多传感器测试数据。但距离集成进需要实时物理交互、闭环控制、大规模场景并发的全栈仿真平台（如CARLA、SVL等），还有集成和工程化的工作要做。

可能的问题：方法依然依赖于从真实数据中重建场景，而非从无到有的生成。对于模拟传感器噪声（如LiDAR的多次回波、相机噪点）的物理真实性未深入探讨。在极度稀疏的LiDAR观测下，几何重建的稳健性可能面临挑战。

主要参考文献

[1] Nikolay Patakin, Arsenii Shirokov, Anton Konushin, Dmitry Senushkin. “Unified Sensor Simulation for Autonomous Driving.” arXiv preprint arXiv:2602.05617 (本论文).

[2] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. “3D Gaussian Splatting for Real-Time Radiance Field Rendering.” ACM Transactions on Graphics (TOG) 42.4 (2023).

[3] Wu, Rundi, et al. “3DGUT: 3D Gaussian Unscented Transform for Arbitrary-View Camera Rendering.” arXiv preprint arXiv:2503.00339 (2025).

[4] Georg Hess, et al. “SplatAD: 3D Gaussian Splatting for All-Day Autonomous Driving Simulation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2025.

*本文仅代表个人理解及观点，不构成任何论文审核或者项目落地推荐意见，具体以相关组织评审结果为准。欢迎就论文内容交流探讨，理性发言哦～想了解更多原文细节的小伙伴，可以点击左下角的“阅读原文”，查看更多原论文细节哦！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

莫斯科大学新作XSIM:自动驾驶仿真“一统江湖”,相机激光雷达都能逼真渲染

打破仿真壁垒：XSIM如何统一自动驾驶的“眼睛”和“雷达”？

核心难题：当高斯泼溅遇上球形卷帘快门

解题密钥：相位建模与双不透明度设计

实验验证：多项指标全面领先，几何精度大幅提升

未来展望：更逼真、更高效的仿真之路

龙迷三问

龙哥点评

最新文章

热门文章

随机文章

莫斯科大学新作XSIM:自动驾驶仿真“一统江湖”,相机激光雷达都能逼真渲染

打破仿真壁垒：XSIM如何统一自动驾驶的“眼睛”和“雷达”？

核心难题：当高斯泼溅遇上球形卷帘快门

解题密钥：相位建模与双不透明度设计

实验验证：多项指标全面领先，几何精度大幅提升

未来展望：更逼真、更高效的仿真之路

龙迷三问

龙哥点评

2026年7款六座SUV新车即将上市,一起来看吧!

2026年全自动驾驶元年,车企疯狂互卷,跟普通人有关系吗?

最新文章

热门文章

随机文章