OpenAI Baselines: ACKTR & A2C
分析
この記事は、OpenAIのBaselinesの一部として、2つの新しい強化学習アルゴリズム、ACKTRとA2Cのリリースを発表しています。A2Cは、A3Cの同期かつ決定論的なバリアントであり、同等の性能を達成していると強調しています。ACKTRは、TRPOとA2Cよりもサンプル効率が高く、計算コストはA2Cよりもわずかに高いとされています。
重要ポイント
参照
“A2Cは、Asynchronous Advantage Actor Critic (A3C)の同期かつ決定論的なバリアントであり、同等の性能が得られることがわかりました。ACKTRは、TRPOとA2Cよりもサンプル効率の高い強化学習アルゴリズムであり、更新あたりの計算量はA2Cよりもわずかに多くなります。”