三维视觉到底在做什么?从 SLAM、自动驾驶,到具身智能与三维重建
3D VISION · AI CAREER MAP三维视觉到底在做什么?
从 SLAM、自动驾驶,到具身智能与三维重建
本文结构
01|SLAM
02|自动驾驶
03|具身智能
04|三维重建

SLAM,同步定位与地图构建,目的是机器设备进入未知环境能够边定位边建图,我能想到最常见的就是扫地机器人,进入一个陌生房间,它需要逐渐知道墙在哪里、家具在哪里、自己当前处于什么位置,并在移动过程中不断更新地图,对应前端计算,后端校验,回环检测,地图构建。当然不止利用点云数据,相机、多传感器可能都会集成,但目前主要是以激光扫描为主。对应岗位包括SLAM算法工程师【激光;视觉;定位建图;机器人导航】。
自动驾驶,目前最接近产业化、岗位最多的方向,两种主流技术路线:纯视觉和多传感器融合。前者以特斯拉为代表,纯视觉+端到端+数据反馈增强,因为目前长时间的发展和海量数据集训练,视觉模型已经很强,加上特斯拉特有的海量用户数据优势,实现了比较好的效果,所以后者被不断唱衰。多传感器融合在诸多自动驾驶研发企业中实际仍占多数,国内大多数和谷歌旗下的Waymo都是,当然有例外,最近小鹏汽车从激光雷达全面转向纯视觉。涉及到的技术有BEV(Bird’s-Eye View,鸟瞰图:把多个摄像头、LiDAR、Radar的信息统一到车身周围的俯视空间中),Occupancy(占据网络,三维空间中哪些位置被占据,哪些位置为空,哪些区域可通行),端到端(中间仍有BEV、Occupancy等结构,只是由神经网络统一优化),VLA(Vision-Language-Action,视觉-语言-动作模型,尝试把视觉感知、语言推理和驾驶动作统一到一个模型中,更进一步,不仅要根据输入实现动作,还要能理解并预测),高精地图(目前的Robotaxi都依赖高精地图,在信息极其详细的地图上运作,帮助熟悉路况和定位)。实际岗位包括自动驾驶感知算法工程师【LiDAR;3D目标检测;BEV;Occupancy;多传感器融合】。
技术关键词
纯视觉多传感器融合BEVOccupancy端到端VLA高精地图
具身智能,赋予机器实体智能,这个概念很大,目的很简单,实现科幻电影中的全自主机器人。自然,SLAM和自动驾驶都是其发展的重要基础,目前有两个主流方向:端到端直接训练(VLA)和模块化感知提升(SLAM、BEV等),当然存在设计机器人实际运动精度的方向,但不算算法大方向,因此不介绍,实际岗位包括具身智能算法工程师【VLA】和机器人感知算法工程师【BEV】。
技术关键词
VLASLAMBEV机器人感知端到端训练
三维重建,构建虚拟3Ds世界,其实这个岗位也算比较多,目前应用前景主要在娱乐方面,游戏、影视、动画、XR、元宇宙、电商3D展示、数字人、虚拟直播和工业设计。2020年,NeRF出现:用神经网络表示三维场景,把空间位置和观察方向输入网络,输出体密度和颜色,再通过体渲染生成新视角图像,但训练慢、渲染慢、编辑困难、工程落地成本高;2023年,3DGS(3D Gaussian Splatting,也就是高斯泼溅),使用大量三维高斯椭球来表示场景,并通过快速光栅化实现实时渲染,使场景效果显著提升;目前,Text-to-3D、Image-to-3D、Video-to-3D、3D资产生成、数字人生成等3D AIGC方向也在不断涌现。包括的岗位就是三维重建算法工程师【NeRF;3DGS;3D生成;Diffusion;数字人生成】。技术关键词
NeRF3DGSText-to-3DImage-to-3DVideo-to-3D3D AIGCDiffusion
FINAL NOTE
三维视觉的核心,是让机器真正理解三维空间,并在空间中完成定位、感知、决策、行动与创造。
紫域 · Tech Editorial
关注 AI、三维视觉、技术岗位与学习路线
