MSACL:基于李雅普诺夫证书的强化学习,用于稳定控制

发布:2025年12月31日 16:36
1分で読める
ArXiv

分析

本文解决了在无模型强化学习中确保可证明稳定性的关键挑战,这是将RL应用于现实世界控制问题的一个重大障碍。MSACL的引入,它结合了指数稳定性理论和最大熵RL,为实现这一目标提供了一种新颖的方法。使用多步李雅普诺夫证书学习和稳定性感知优势函数尤其值得注意。本文侧重于离策略学习和对不确定性的鲁棒性,进一步增强了其现实意义。公开可用的代码和基准的承诺增加了这项研究的影响。

引用

MSACL在简单的奖励下实现了指数稳定性,并快速收敛,同时对不确定性表现出显著的鲁棒性,并推广到未见过的轨迹。