点击下方卡片,关注“之心智能EDU”公众号
作者丨知乎健壮壮
编辑丨之心智能EDU
https://zhuanlan.zhihu.com/p/2039667146515538016
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个自动驾驶全栈学习社区:自动驾驶之心知识星球(戳我),这里包含所有你想要的。
记得上次写文章的时候,还是在广州XP的时候。感恩当时遇到非常nice领导和有趣的同事。期间技术栈也发生了很大的变化,由规则驱动转化为数据驱动的范式。目前已转向RL技术栈(model-free的ocp问题),外加ai coding的提效, 后面会附demo

预训练模仿学习(初解),基于初解,reward探索,微调;

具身智能研究大量依赖于仿真平台。MuJoCo/Gazebo/Isaac Sim;Sim2Real迁移技术减少虚实差距(Domain Randomization):在训练时随机关节扰动
强化学习理论,是model free的ocp问题;我这里用一张图片来展示强化学习与优化、应用领域决策规划的关系;总体上需要较强的数学基础和理解能力。强化学习和优化领域参考资料参见:强化学习的数学原理(赵世钰),凸优化(StephenBoyd),最优控制理论方法与应用(王青),大家自行搜索


diffusion + flow matching是目前比较快的生成模型,主要应用于图像生成和自动驾驶机器人领域。生成建模学习本质:从噪声分布到真实分布的过程,本质上是一种数学建模过程。扩散模型爆火核心内因就是:它数学建模逻辑极度贴合现实世界的物理客观规律
Flow 是什么,Flow 是一种连续可微变换 ,并定义如下
这个变换是个恒等变换,随着 逐步增加这个变换逐渐可微的渐变。Flow matching 学什么,他学习的速度场,给定任意数据 他的真实速度 和 网络的差的期望
但这个值显然不好计算,一方面 未知,一方面 未知,下图给出了一个示意,但符号使用上以 代表数据, 代表噪声。但其实不必去求 FM loss(有证明),我们只需要知道他的梯度就行,我们其实是想学极值点。可以证明下面公式的梯度和 FM loss 等同。
我们可以稍微展开看看
上式中 和网络无关,代表真实的速度场,所以无需关心
上式可以说明 CFM 和 FM 梯度的第一项相等,第二项证明有点绕,我们先引入场的连续性方程;类似流体力学里的连续性方程(Continuity Equation),即流体密度时间变化率加上质量通量密度的散度(梯度的加权和)等于零。
有了连续性条件我们得出一个中间结果:
上面第一步使用了边缘分布和条件分布的关系
比较等式两边散度算子内的项可得:
于是第二项相等得证:
CFM 显然比 FM 可操作,最起码数据的分布我们知道的或者可以采样近似,我们也可以自己控制
接下来用高斯函数表达 probability path,我们考虑如下的概率路径:
并定义 ,,,。这可以理解从数据分布到一个标准正态分布的一个路径,并考虑一个特定的 flow
在上两个规定下的特殊情形我们有:
证明了为符号简化,记 ,令 对于
整理为 对于 他的表达式为
同时我们有
整理上面结果可得
到这一步 CFM 中的所有东西都能给出,但为了更加简单,我们可以进一步
在这种简化下
也就是 Flow 是一条直线路径,速度就是噪声到数据的距离,从这里我们看到了问题从泛化到特化,从复杂到简单,最后的算法其实非常简单直接,他的算法流程如下:
我们使用Flow Matching的Diffusion planner 并用 Diffusion NFT来做微调,在nuplan上实现离线开环微调初步效果。

FlowGRPO 将去噪采样过程离散化为马尔科夫过程,通过近似相邻步骤之间的高斯转移核近似GRPO算法;算法专注反向过程,破坏正向一致性;依赖SED采样,无法使用ODE等确定性采样器;需存储完整的采样轨迹(包括中间状态),以计算策略梯度,存储和计算开销大。
DiffusionNFT 使用监督模型范式,通过对比正负样本定义策略模型改进方向,将强化信号直接融入到标准的扩散过程中,无需似然估计;保持正向一致性,同时完全解耦策略训练与数据采样,允许使用任意黑箱求解器(包括ODE和高阶方法),提升采样效率与质量。有下列优点:
扩散模型的一种学习方式是采用速度参数化 ,预测轨迹切线,通过最小化目标损失训练:
在线强化学习:给定预测轨迹扩散策略 和提示词 ,每轮迭代为提示 采样 张图像 ,用标量奖励函数
评估每张图像,代表最优概率。采集数据可随机划分为两个虚拟子集:图像 以概率 归入正样本集
,否则归入负样本集 。无限样本下,两个子集的底层分布分别为:
强化学习要求每轮迭代执行策略提升,优化策略 满足:
同样容易证明:
为了利用 ,强化引导我们认为负反馈对策略提升至关重要。不将 作为优化点,而是同时利用正负数据指导提升方向 ,训练目标定义为:
其中 是扩散模型速度预测器, 为超参数。该形式与 CFG 等扩散引导类似,我们称 为强化引导, 为引导强度。根据公式(18-19)可定义和证明:
其中
为标量系数;该式给出提升 的理想引导方向 ,适当引导强度可保证策略提升;(策略优化):训练目标为:
其中:
训练目标梯度:
那么将训练目标梯度积分从优化器方向理解:
第一项:优化方向
第二项:约束松弛项
无限数据与模型容量下,最优解满足:
参考:
https://github.com/ZhengYinan-AIR/Diffusion-Planner
https://github.com/NVlabs/DiffusionNFT
Diffusion Planner 是基于扩散模型与 Transformer 的自动驾驶闭环规划器,核心特点是统一预测与规划、多模态生成、灵活引导、高速推理、强泛化与低后处理依赖;
核心架构:DiT 扩散 Transformer、Flow matching
Diffusion 的多模建模天然适合RL

下面是RL架构简略图(目前demo设定的是离线强化学习,后续可引入闭环强化学习架构,一段式模型引入3DGS)
demo链接(comming soon大约一周时间):https://github.com/chaoren718718-jpg/diffusion-rl

https://www.zhihu.com/question/1964369389823427262/answer/1964907507454550287
参考FSD AI研发范式:
端到端模型架构的必要性:对人类价值观进行编码极其困难 \ 感知、预测与规划之间的接口定义模糊。FSD介绍比较关键内容:
Ai是第四次工业革命,意味着生产效率的提升,AI开发的产品线符合工业流水线(本质上兼顾效率和质量);有些部分工具可以无人自动化,有些部分还需要人类;但所有生产者生成的内容都需要有个质量检查体系来校验;其背后的核心原理本质是: 效率和质量极致管理,这条流水线的各个部分不能有明显的短板,否则就会影响效率和质量,折射出一号位对工程和产品、技术的理解和管理水平,也就是所谓的“体系”。为啥需要这套流水线? 人不是神,代码肯定会犯错。如果不有效(自动化)仿真拦截错误,直接现实中测试,效率极低,本质上是提高生产效率。
例子1:开发手机软件的一个小模块,开发人员无法保证该改动会不会对其他模块性能有影响;实际测试可能又测试不到该场景。那就需要有性能监控和反馈,导致进度有问题
例子2:Ai Coding类似的逻辑: 人类是总监,提出详细需求,将问题拆解,将“工产流水线”系统流程搭建好; AgentA , AgentB提出方案 ----> AgentC , AgentD review方案 ----> AgentE , AgentF实施方案 ----> AgentG , AgentH 质量检查 ----> 反馈
所以ai时代,面向产品的开发,更加考验组织团队的效率,工具的效率和工程细节打磨(真正优秀的产品是无数个细节累加而成,这些可以说都是脏活累活);而非期待有颗银子弹搞定一切。

Scaling Test-Time Compute Without Verification or RL is Suboptimal
链接:https://arxiv.org/abs/2502.12118
基座模型必须具备的 4 个核心先决能力:
基座已有的能力里 “挑出最好的解”。所以基座必须:会很多解法、偶尔能做对。
预训练是模仿学习,泛化弱,未见场景极易出错,只能复刻已有数据,无法自主探索优化;RL强化学习,可提高模型泛化性;可在线交互试错,动态适配变化环境;能探索最优策略,突破人类现有经验;那么RL 取决于环境和reward;
预训练"初解" + RL "优化微调"
与纵向规划一样,算法模块提供ref ,在经过动力学优化器(apollo)。预训练的初始结果就比较好,然后通过强化学习微调(这样可大大降低reward设计的复杂性和精细度);或结果不好,看是否通过强化学习微调修掉,过度依赖reward 就会陷入设计规则的跷跷板;如果信息传递存在丢失的场景或者需要高级语义理解的场景,大概的解决方案:挖掘数据,调节分布;否则可以通过rl微调解决。总之预训练和rl应该是相辅相成的,但在自动驾驶领域预训练还是大头,远没有预训练和强化学习55开的情况。
Ai 可以把原来的差异成倍的放大,专业能力极其重要(PS: demo中没有一行代码是我自己写的)
Lecun "我们应该学习数学、建模的基础知识, 学习如何学习",保持对基础知识的掌握会让你事倍功半
END


求点赞

求分享

求喜欢
