OpenAI 基线：ACKTR 和 A2C

发布:2017年8月18日 07:00

•

1分で読める

分析

这篇文章宣布了作为 OpenAI 基线的一部分，发布了两个新的强化学习算法：ACKTR 和 A2C。它强调 A2C 是 A3C 的同步且确定性变体，实现了相当的性能。ACKTR 被认为是 TRPO 和 A2C 之外更具样本效率的替代方案，其计算成本略高于 A2C。

引用

“A2C 是 Asynchronous Advantage Actor Critic (A3C) 的同步且确定性变体，我们发现它能提供相同的性能。ACKTR 是一个比 TRPO 和 A2C 更具样本效率的强化学习算法，并且每次更新所需的计算量仅略多于 A2C。”

Symbolic Machine Learning

Core ML: Integrate machine learning models into your app