OpenAI 基线:ACKTR 和 A2C
分析
这篇文章宣布了作为 OpenAI 基线的一部分,发布了两个新的强化学习算法:ACKTR 和 A2C。它强调 A2C 是 A3C 的同步且确定性变体,实现了相当的性能。ACKTR 被认为是 TRPO 和 A2C 之外更具样本效率的替代方案,其计算成本略高于 A2C。
要点
引用
“A2C 是 Asynchronous Advantage Actor Critic (A3C) 的同步且确定性变体,我们发现它能提供相同的性能。ACKTR 是一个比 TRPO 和 A2C 更具样本效率的强化学习算法,并且每次更新所需的计算量仅略多于 A2C。”