车辆国重团队在强化学习领域取得重要进展

日期

2025.09.10

近日，清华大学智能绿色车辆与交通全国重点实验室李克强院士、李升波教授团队在强化学习算法设计领域取得重要进展。团队针对工业对象的智能决策与控制需求，推出了DSAC（Distributional Soft Actor Critic）系列强化学习算法，解决了已有方法值函数学习不准、策略性能低下的难题，并于典型基准测试任务中取得了国际领先的SOTA性能。第一代DSAC算法发表于IEEE Transactions on Neural Networks and Learning Systems（2022），第二代发表于IEEE Transactions on Pattern Analysis and Machine Intelligence（2025）。

强化学习在具身智能控制（如自动驾驶、机器人等）任务中展现出巨大潜力，但主流方法长期面临“值函数过估计”难题。简而言之，贝尔曼方程的迭代求解过程中，因为最大化算子的存在，易造成值函数（即性能衡量指标）误差向单一方向持续累积，导致策略学习严重偏离最优解。该问题最早在1993年由斯坦福大学的学者从算法实验中发现，进入深度强化学习阶段之后，因神经网络拟合速度慢以及固有训练误差的存在，导致过估计问题更加严峻。自2010年开始，Deepmind、麦吉尔大学的科学家先后提出了Double Q-learning、Clipped Double-Q等一系列措施，尝试使用双函数互相矫正的思想解决单一函数的计算误差。这些措施虽然在一定程度上抑制了值函数的过估计问题，但是对于高维非线性任务，仍面临值函数学习不准、策略性能低下的瓶颈难题。

图1.DSAC算法核心架构和关键技术

自2019年开始，车辆国重研究团队聚焦“如何提高强化学习算法性能”这一问题开展攻关。首次发现了值分布函数（distributional value function）的估计偏差调节机制，证明了过估计偏差与值分布方差呈反比的结论。团队将这一机制与最大熵框架结合，把策略优化目标的刻画从单一维度扩展为无穷维度，以此为基础提出了第一代DSAC算法，极大提升了复杂工业控制任务的学习性能。为进一步改进该算法的迭代稳定性，并降低参数敏感度，团队提出了三项全新的值分布梯度修正技术，即Expected Value Substituting（EVS）、Twin Value Distribution Learning（TVDL）和Variance-Based Critic Gradient Adjustment（VCGA），并将其嵌入到第二代DSAC算法中（又称为DSAC-T）。EVS的原理是在训练值分布网络时以期望目标值替代单次随机样本，显著降低梯度方差，提高学习稳定性。TVDL的原理是并行训练两个独立值分布网络，借鉴Double Q-learning的思路，在更新时选取更保守的一方，进一步抑制过估计误差。VCGA的原理是根据值分布方差自适应缩放值分布函数更新梯度，使算法在不同任务和参数设定下都能保持稳定且一致的性能。标准测试环境的实验表明，DSAC算法的综合表现全面超越SAC（UC Berkeley）、TD3（McGill）、DDPG（DeepMind）、TRPO（UC Berkeley）、PPO（OpenAI）等主流强化学习算法。

图2.典型任务的性能对比

目前，研究团队已将DSAC两代算法进行了开源，并集成于自主研发的GOPS工具链，以方便学术界与工业界验证与使用。该算法已应用于端到端自动驾驶、具身智能机器人、工程机械无人作业等领域的模型训练，与滴滴、广汽、东风、一汽、宝武等龙头企业开展产业应用服务。该项目得到国家“十四五”重点研发计划、国家自然科学基金、北京市自然科学基金及清华大学自主科研计划的资助。

参考文献与代码开源链接

1. Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, Shengbo Eben Li, Chang Liu, Ya-Qin Zhang, Bo Cheng, Keqiang Li, "Distributional Soft Actor-Critic with Three Refinements". IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 5, pp. 3935-3946, 2025.

链接：https://ieeexplore.ieee.org/document/10858686

2. Jingliang Duan, Yang Guan, Shengbo Eben Li, Yangang Ren, Qi Sun, Bo Cheng, “Distributional soft actor-critic: off-policy reinforcement learning for addressing value estimation errors,” IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 11, pp. 6584-6598, 2022.

链接：https://ieeexplore.ieee.org/document/9448360

3. DSAC开源链接：

https://github.com/Jingliang-Duan/DSAC-v2

4. GOPS开源链接：

https://gops.readthedocs.io/

Off

学术

教学