自动驾驶汽车、智能家居和工业中基于毫米波雷达的传感调查——文章精读(下)
H. Kong, C. Huang, J. Yu and X. Shen, "A Survey of mmWave Radar-Based Sensing in Autonomous Vehicles, Smart Homes and Industry," in IEEE Communications Surveys & Tutorials, vol. 27, no. 1, pp. 463-508, Feb. 2025, doi: 10.1109/COMST.2024.3409556.
一、智能家居:从生命体征检测开始
1) 生命体征监测:把“胸腔/心脏的微位移”变成可分离的频率成分(Table XI)

图片描述(Table XI):这是一张对比表,列名是 Works / Device / Method / Scenario / Performance。能看到很多系统围绕“多人分离”“动态环境”“设备互扰”等现实问题提出对应手段,例如通过 range‑gating、beamforming 做目标分量提取,通过 DP(动态规划) 抗测量噪声,通过 VMD(变分模态分解) 以及“加权多通道 VMD”把呼吸/心跳从相位里拆出来,甚至还有通过雷达+摄像头辅助定位后再形成波束的融合思路,以及利用“一向传播特性”抑制互扰的系统设计。
事实上,生命体征监测的困难很显然:真实环境中人会动、背景会变、车内/驾驶环境还会引入额外运动伪影,所以很多工作都在做“把生命体征的微弱、周期信号从更强的杂项里剥出来”。对应的核心关系是:毫米级位移会以相位形式被放大出来。如果在某个距离门(range bin)上取到的复基带为,那么回波相位的变化 与往返距离变化 的关系是
其中 是载频 对应波长。呼吸与心跳可近似写成两个叠加的弱周期位移:
于是相位里就出现两个主频 的调制。把 做 unwrap 后做谱分析,或者先用时频/分解(如 VMD)再做峰值与重建,就能估计呼吸/心率——这就是表里“从信号相位提取呼吸分量”“用 VMD 分离”“模板优化重建心动周期”等方法名背后最直接的数学骨架。
而多人场景的难点则可以被简单抽象为:观测相位(或其导数、或其时频表示)以多人的叠加形式存在:
所以表里出现 range‑gating、beamforming、目标定位等“先分离再估计”的路线;融合摄像头辅助定位再形成收发波束,本质上也是在提高“ 的可分离性”。
2) 用户认证:把行为/生物特征做成可判别的“雷达指纹”(Fig. 13 + Table XII)

图片描述(Fig. 13):这张图画的是一个非常标准的雷达认证识别流水线:左侧是毫米波雷达,感知对象包含步态(gait)、声带振动/语音相关(vocal cord vibration)、人脸(face)、心跳(heart beat)等;中间依次是 Signal Processing → Feature Extraction → Classification;右侧输出是 Identify and Authenticate。总体流程就是先把信号处理干净、把特征抽出来,再让分类器做身份判别。
紧接着原文解释了“认证”的内涵已经从传统安全扩展到“人‑IoT 世界的映射”,毫米波雷达能够揭示人的行为与生物特征,因而可以做身份识别;并指出步态认证是其中一个典型方向:雷达能提取用户步态并作为生物特征进行分类与认证。

图片描述(Table XII):表头仍是 Works / Device / Method / Scenario / Performance,但内容聚焦“用户认证”。它把不同生物特征路线摆在同一张表里:步态、多人步态、人脸、语音、心跳/生命体征等;设备多是 TI 的毫米波雷达系列(IWR/AWR 等)以及 60GHz 平台;方法上既有 CNN/ResNet/时空卷积等深度模型,也有 Autoencoder、SVM+RNN、特征选择(如递归特征消除)等;性能指标除 Accuracy 外,还出现 、 等更贴近认证系统的指标。
该表格把“认证”拆成两层工作:第一层是把雷达信号变成稳定的中间表征(例如 micro‑Doppler 谱图、range‑Doppler、点云/轮廓等);第二层才是在表征上学习身份判别边界。当表里出现“多人步态分割”“密度分类分离”“微多普勒校准”之类词汇时,几乎都在解决第一层;当表里出现“度量学习”“大间隔损失”“跨模态变换”时,多在增强第二层的判别性与可迁移性。
而要把“步态/语音/心跳”这三类看似不同的指纹统一到一个数学框架,关键仍然是“速度/位移对相位与多普勒的调制”。若目标径向速度为 ,单基地多普勒满足
步态/肢体运动不是匀速,所以 是随时间变化的,这就产生了微多普勒纹理;把回波 做短时傅里叶变换(STFT)得到谱图:
那么 的纹理就成为“步态指纹”的典型输入(很多工作直接把它当图像送进 CNN)。语音/声带振动、心跳更像“微位移相位调制”,对应上一节的 。我们会发现同一套物理量(相位/多普勒),在不同时间尺度上分别承载“步态宏运动”和“生命体征微运动”,所以它们能被统一进 Fig.13 的同一条流水线。
认证系统常用的指标以二分类(合法/非法)为例,混淆矩阵中的 满足
表里写的 “”,就是在调阈值使得 时的接受率达到 。
此外,原文在这一段还强调了“多人场景”的复杂性(在表里体现为多人步态、多人心跳等),这本质是一个“混合→分离→识别”的链条:如果观测表征 是多人叠加,则需要某种分离算子 把它拆成近似单人的分量:
然后在 上做身份判别。表里的“跨模态”路线(把视觉等大数据模态迁移到毫米波)在论文的“减少训练负担”部分也会再次出现。
3) 室内定位:从“距离/角度/速度”到跟踪(Table XIII)

图片描述(Table XIII):这张对比表列出室内定位/跟踪工作,方法名里以 EKF/KF、聚类关联、谱峰重建、幅度‑AoA、甚至“微动相位变化特征”等为主;性能多以定位误差(cm 级、mm 级)或 RMSE 呈现。
原文对“为什么室内定位难”给了一个解释:毫米波信号天然嘈杂,使用 FMCW 的距离估计与 TDM‑MIMO 的角度估计,在跟踪移动人体时可能出现不准确;于是一些工作会用数字波束形成、消除近远效应、聚类等增强,再做匹配与跟踪。
把“距离+角度”写成几何观测,最常用模型是平面极坐标:若目标位置为 ,量测为 ,
而跟踪滤波(KF/EKF)的意义在于:我们并不是每一帧都能得到干净的 ,更常见的是“噪声+离群点+偶发丢检”,所以用状态模型把时间连续性编码进去。以匀速模型为例,状态向量
在采样间隔 下的线性转移为
量测函数 是非线性的,于是引入 EKF 的线性化雅可比 (详见附录),再用 做递推更新。
二、工业场景:成像、测量、环境监测把毫米波推向“介质与结构”
毫米波雷达因其低成本、小尺寸、全天候等优势,正被集成进工业应用;接下来作者分别讨论工业成像、工业测量、环境监测,并用 Table XIV–XVI 总结。
1) 工业成像:从“能见度差/矿区/轮胎”到“合成孔径与深度生成”(Table XIV)

图片描述(Table XIV):表格列名是 Works / Device / Target / Method / Performance,目标包括雾中成像、3D 重建、矿区环境、轮胎磨损、反射计成像、自由手扫描成像、成像式目标检测等;方法里既有非常经典的 SAR/合成孔径,也有深度学习时代的 cGAN、卷积检测网络、基于 range‑angle heatmap 的 ML/YOLO 等。
这里先强调了一个“工业成像不同于室内定位”的点:毫米波具备角度估计能力后,可以做类似成像的事情;例如 HawkEye 用 cGAN 在雾中成像,后续工作还研究了“背靠背的 cGAN(两个生成器)”以提升性能;D‑Band 的 FMCW 雷达用于更高分辨的 3D 成像与工业测量;矿区场景里毫米波可以在烟雾/灰尘等恶劣条件下替代激光/声呐;Osprey 把雷达装在轮胎井中以图像方式刻画胎纹与异物;还有波导结合 FMCW 的反射计成像、自由手扫描的合成孔径与不规则采样补偿,以及把 YOLO 或卷积检测直接用在自定义 range‑angle heatmap 上的“雷达图像检测”。
把“range‑angle heatmap”写成一个最朴素的数学对象,通常是“距离维 FFT + 阵列角谱”。设在某距离门得到阵列观测 ,对于均匀线阵(ULA)导向向量
最简单的波束形成角谱就是
把不同距离门的 叠起来,就得到二维的 range‑angle heatmap,它既可以被传统检测器处理,也可以被深度检测网络当成“图像”输入。至于表里出现的“合成孔径/自由手扫描”,则可用“沿轨迹采样并做相位补偿相干叠加”的聚焦表达概括:
其中 是第 次观测位置, 是复回波。表里提到“不规则采样补偿”就是在 不均匀时减少旁瓣/伪影的重建修正。
2) 工业测量:微振、尺寸、检测,也包含“安全与对抗”(Table XV)

图片描述(Table XV):目标从“振动检测、风机叶片间隙、屏幕内容推断、距离欺骗攻击、儿童存在检测、障碍物检测、无人机检测与追踪、堆料表征、包裹测量、遮挡材料分类”等一路铺开;方法从 IQ 相位、多普勒、FFT/IFFT、小波/谱图、最小二乘拟合、KF 变体到深度网络都有。
而作者在这一节的叙述里,先给了典型的“微振”路线:mmVib 在 IQ 域估计相位并融合多信号以检测工业振动;另有 60GHz FMCW 传感器利用多普勒估计设备振动频率。随后提到一个非跨界系统 WaveSpy:利用屏幕内容与液晶阵列状态的关系,用 24GHz FMCW 雷达与小波/谱图增强去推断屏幕信息;紧接着又提到距离欺骗(distance spoofing)研究,强调对 FMCW 测距链路的安全关注。毫米波测距系统的信号链(调频、延迟、解拍频)一旦被攻击者掌握,存在被操纵输出的风险。
从“数学结构”看,微振测量依旧回到了最开始的相位‑位移关系。对某个稳定散射点,取基带 ,有
若振动近似 ,则 也是正弦调制,FFT 主峰位置给出 ,峰值大小对应 。这就是表里“相位/IQ 域”“多信号融合”的底层:多通道、多距离门、多天线的 观测做加权融合,可以提升鲁棒性与抗噪。
而像“叶片间隙/尺寸”这类任务,很多时候可以抽象成参数估计或拟合,比如将观测到的几何量记为 ,模型为 ,最小二乘就是
小波分析(WaveSpy 里出现)则对应对非平稳信号的多尺度分解:
尺度 控制频率分辨率,平移 控制时间定位;当目标信息以“局部时频纹理”的方式存在时,小波/谱图往往比单一 FFT 更稳健。
3) 环境监测:从“空气/水/土壤/昆虫”观察毫米波对介质的敏感性(Table XVI)

图片描述(Table XVI):表格列名是 Works / Device / Target / Method / Performance,目标包含云与降水探测、温度监测、气体/气溶胶监测、液体识别、湿度感知、降雨监测、天气传播模型、土壤含水量、昆虫监测等。而对应的方法上更接近物理上的传播学:反射率、Doppler、偏振量、散射、折射率模拟、衰减/相位/传播时延;同时也出现了“子空间投影 + SVM”这种典型信号处理+学习的组合。
具体而言,ThermoWave 利用温度对材料分子结构的影响从而调制散射;气体/气溶胶监测通过分子光谱数据模拟折射率来识别;液体识别利用穿透液体时的衰减、相位偏移与传播延迟;湿度感知利用水汽水平对毫米波的影响,并用子空间投影消除氧气等因素、建立湿度与信号的线性关系;降雨监测研究不同频段/链路长度的回传链路雨衰特性;土壤含水量可由传播时间与 AoA 推得;昆虫监测甚至用毫米波成像观察小型生命体运动。
把“环境介质”写成数学对象,最通用的入口是复介电常数 。电磁波在介质中的传播常数
于是传播距离 后,幅度衰减与相位延迟可写为
这正对应表里“衰减、相位偏移、传播延迟”的关键词:即不同湿度/不同液体/不同含水量改变 ,也就改变 ,从而改变可观测的幅相统计。湿度感知里的“子空间投影”则可以被写成:把观测向量分解为“湿度相关子空间 + 干扰子空间 + 噪声”,然后投影到干扰子空间的正交补上,附录会把它具体推到投影矩阵的闭式形式。
三、挑战与解决:从“能跑通”到“能部署、能扩展”
当毫米波雷达感知逐渐融入真实的移动/IOT 场景,会出现一批系统级难题;作者将其总结为 ISAC、LLM‑Aided、环境噪声、训练成本等方向,并给出潜在解决路径。
1) ISAC:室内“少雷达”条件下,如何把 sensing 与 communication 真的揉在一起
已有研究在 mmWave MIMO 系统里讨论感知与通信集成,也有通过 IRS/RIS 降低集成路径损耗的思路;但“面向 ubiquitous indoor environment”的 mmWave‑ISAC 仍是开放问题,因为室内通常雷达数量很少,使得许多 MIMO 雷达 ISAC 方案不再适用。作者给了一个很具体的可能方向:进一步利用“为感知设计的 chirp 信号中嵌入的信息”去调制通信数据,从波形层面融合 sensing 与 communications。
其实从数学上看,这本质就是一个典型的多目标权衡:在同一波形/同一资源上,希望通信速率 大,同时感知误差(距离/速度/角度)小。可以写成
“用 chirp 嵌入数据”则意味着发射信号不再是纯 LFM,而是在 chirp 间或 chirp 内引入调制自由度;具体推导见附录的 FMCW/波形部分。
2) LLM‑Aided Sensing:一条是“合成数据”,一条是“更像人类的理解”
原文用 ChatGPT 作为例子说明 LLM 的“生成与理解”能力,并提出两条对毫米波感知很直接的价值线:其一,生成式 AI 可通过理解数据分布来生成训练/测试数据,从而减轻采集毫米波数据的负担,并提升多样性与抗噪;其二,LLM 能把毫米波感知从“输出已知标签”推进到“对任务与对象的进一步理解”,例如不仅预测动作标签,还能进一步分析判断人的状态、动作与意图,从而开辟新的应用领域。
如果用概率语言表达“数据合成”,就是学习一个生成分布 (或条件分布 )并采样:
其中 是毫米波中间表征(点云/热图/谱图等), 是场景/动作/布局等条件。至于“理解”,则更像把传统的 扩展为输出结构化解释 ;这是范式变化,而不仅仅是模型变大。
3) 环境噪声:信号侧与学习侧两条路,未来可能在“相位趋势差异”与“生成补全”上更进一步
原文把环境噪声概括为背景变化、动态干扰、NLOS 遮挡等,并指出其会改变传播与信号模式,导致在某一环境训练的模型迁移到另一环境后性能下降;现有方法可分为 signal‑based 与 learning‑based 两类:前者利用物理性质提取目标信号、忽略噪声,后者通过域判别器、层级 VMD 等学习设计来抑噪;未来信号侧可以继续挖掘物理性质,例如“背景物体与人体在近距离区域的相位变化趋势可能不同(与表面平滑度有关)”从而用于噪声消除;而学习侧则可利用生成器去补偿环境噪声造成的缺失部分。
比如把域对抗学习写成一个经典目标函数,可以是
其中 是域标签(房间/布局/背景)。而“相位变化趋势差异”这种物理线索,最朴素地可以从相位序列的局部导数/方差/谱能量去构造判别统计,例如比较 在人体区域与背景区域的差异(附录会把它放进一个更一致的观测模型里解释)。
4) 降低训练成本:跨模态、少样本之外,更通用的是蒸馏/迁移/快速学习/增量学习
机器学习应用需要训练过程与标注数据;更多数据通常带来更好性能,但随着应用复杂化,很难获得充分且合适的数据,同时缺乏大规模公共毫米波数据集也限制了训练;更深的结构还带来训练时间长的问题。为减轻负担,已有跨模态变换利用现有大数据生成训练数据,少样本学习也通过更专用模型或更高效表征来实现;但作者强调更“通用”的路径仍值得研究,例如知识蒸馏、迁移学习替代传统从头构建;快速机器学习降低时间成本;增量学习用新数据持续改进而不是全量重训。
比如,知识蒸馏的常见的写法“真标签交叉熵 + 软标签 KL”:
其中 , 是 logits, 是温度。它对应原文“用蒸馏/迁移替代传统构建过程”的核心想法:在更少毫米波数据与更低训练代价下,尽量保持教师模型的知识。
四、把这些表格读成一条“统一的计算链”
毫米波雷达从来不是“直接输出语义”,它输出的是一堆与距离/角度/速度/相位/散射相关的观测;这就需要我们用信号处理方法把观测压缩成稳定表征(range‑Doppler、range‑angle、谱图、点云、相位序列),再用机器学习把表征映射成任务输出(生命体征、身份、位置、结构、介质属性)。当系统走向真实部署,ISAC、噪声、训练成本与安全性问题就会把“算法跑通”推向“系统可持续”。
附录
附录 A:FMCW 距离估计的推导(以及为什么它天然连接到 Table XIII / XV 的测距与跟踪)
设发射为线性调频(LFM)chirp,持续时间 ,带宽 ,斜率 ,载频 。发射信号可写为
$$s_T(t)=\exp\left(j2\pi\left(f_c t+\frac{S}{2}t^2\right)\right),\quad 0\le t<t_c. $$="" 目标距离为 ,往返时延 。忽略幅度衰减与天线方向图,接收信号近似FMCW 的核心操作是“解调(dechirp)/混频”:把接收信号与发射信号共轭相乘
将 展开:
于是
整理括号内相位项。先处理载频项:
再处理二次项:
合并得到
其中 是与 无关的常相位,真正决定“拍频”的是 ,因此拍频为
于是距离估计为
这条推导解释了为什么 Table XIII/ XV 里到处是 “FMCW + FFT/IFFT”:在一个 chirp 内对 采样做 FFT,峰值位置就是 ,从而得到距离门(range bin)。距离分辨率来自带宽:
附录 B:速度(多普勒)如何进入 FMCW,并导出 range‑Doppler
若目标具有径向速度 ,则其距离随慢时间变化 。在许多 FMCW 雷达的推导里,假设单个 chirp 内 变化很小(),多普勒主要体现为回波载频上的频移 。
一种常见近似结果是:拍频在“距离项”基础上叠加多普勒项
更严谨地,我们会在跨 chirp 的慢时间维度看到一个复指数相位旋转。设一帧包含 个 chirp,第 个 chirp 的距离 FFT 后在某距离门上的复幅为 ,则在匀速假设下
其中 是 chirp 重复周期(PRI)。对 做 点 FFT,就得到多普勒谱峰,从而估计 ,进而估计速度 。这就是所谓“二维 FFT:快时间→距离,慢时间→速度”,输出的二维幅度图就是 range‑Doppler heatmap。
当速度不是常数而是随时间变化 (如步态肢体摆动),那么 也随时间变化,微多普勒就成为一个非平稳时频结构,于是 STFT 谱图
自然成为 Table XII 中“步态/语音/心跳指纹”的共同入口。
附录 C:TDM‑MIMO 测角与 range‑angle heatmap 的推导(Table XIII/ XIV 中 AoA 与成像输入的底层)
以 ULA 为例,阵元间距 ,入射角 ,导向向量
如果在某距离门上观测向量为 ,匹配滤波/延时求和波束形成输出
扫描 得到角谱 。当对每个距离门都做一次扫描,就得到二维 ,这就是工业应用里常被送入检测/分类网络的 range‑angle heatmap。
若采用 TDM‑MIMO(发射天线时分复用),在满足窄带与同步假设下,可形成“虚拟阵列”,把发射阵元与接收阵元的组合等效为更长的阵列孔径,提升角分辨率。更高分辨的 AoA 估计还可用子空间方法(如 MUSIC):设协方差矩阵 ,将其特征分解为信号子空间与噪声子空间,噪声子空间矩阵为 ,则 MUSIC 谱为
这些推导解释了原文所说“FMCW 距离估计 + TDM‑MIMO 角度估计”这一基础组合,同时也解释了为什么室内复杂反射下测角容易出问题:多径使得 不再是单一导向向量叠加的理想情形,噪声子空间与信号子空间会被污染,从而影响角谱峰。
附录 D:EKF 跟踪的完整推导骨架
取状态 ,转移与协方差预测:
量测为极坐标 ,量测函数
EKF 的关键是雅可比矩阵 。因为量测只依赖位置,不依赖速度,。对 ,
对 ,
于是
创新(残差):
创新协方差:
卡尔曼增益:
更新:
EKF 本身的难点在于 的可靠性与 的合理设定;因此表里同是 EKF 却差别巨大,往往来自前端的点云/热图提取、离群点剔除、数据关联策略等。
附录 E:多目标数据关联与“加权二分图匹配”的数学形式
上一帧有 条轨迹 ,当前帧检测到 个观测 。构造代价矩阵
求解指派变量 :
满足约束
这就是二分图最小权匹配(可用 Hungarian 算法求解)。完成关联后,再对每条轨迹用 KF/EKF 更新,即构成“检测‑关联‑滤波”的经典跟踪框架。
附录 F:子空间投影(Table XVI 的湿度感知)从线性代数推到投影矩阵
把观测特征向量记为 ,由“湿度相关成分 + 干扰成分(如氧气等)+ 噪声”组成:
若能用“无湿度变化”或“已知湿度条件”下采集的一组背景数据估计干扰子空间 ,设其正交基为 (列正交),则投影到干扰子空间的投影矩阵是
投影到其正交补空间的投影矩阵是
对观测做投影
因为 ,干扰项被压制。若湿度与某一标量特征 近似线性相关,可写成
从而可用线性回归或再交给 SVM 做分类/回归。这就是原文所说“子空间投影建立线性关系并消除氧气等因素”的数学依据。
附录 G:cGAN(Table XIV)与度量学习(Table XII)的目标函数,写成可对照的优化问题
cGAN 常见的条件对抗目标是
其中 是雷达输入(热图/点云/低分辨结构), 是期望输出(更清晰的结构/深度/成像结果)。 项让输出贴近真实, 让输出更“像”真实分布。
度量学习(跨模态身份对齐/多人认证)一个最常用的三元组损失是
其中 是特征, 分别是 anchor/positive/negative, 是间隔。它的“几何语义”非常明确:同一人的特征距离要比不同人的特征距离至少小 。当表里写“跨模态变换/度量学习”,通常就是在试图让不同模态(如视觉与毫米波)在同一特征空间里保持这种几何结构,从而减少毫米波数据采集负担。
附录 H:知识蒸馏与增量学习(对应原文“Reducing Training Effort”)
蒸馏损失已在正文给出,这里补一个“温度为什么要乘 ”的直觉:设学生 logits 为 ,教师 logits 为 ,软分布
当 变大时分布更平滑,梯度尺度会缩小,乘 常用于让 KL 项梯度幅度与 的变化保持相对稳定,从而更好地传递“类间相似性”信息。
而增量学习在最朴素的形式上可以写成“分批次的风险最小化”:
约束不遗忘的方法很多(回放、正则、蒸馏到旧模型等)。