プロキシマルポリシー最適化

公開:2017年7月20日 07:00
1分で読める
OpenAI News

分析

この記事は、OpenAIが新しい強化学習アルゴリズムであるProximal Policy Optimization(PPO)をリリースすることを発表しています。主なセールスポイントは、既存の方法と同等以上の性能、実装の容易さ、および調整のしやすさです。この記事は、PPOが現在OpenAIのデフォルトの強化学習アルゴリズムになっていることを強調しています。

参照

PPOは、使いやすさと優れたパフォーマンスにより、OpenAIのデフォルトの強化学習アルゴリズムになりました。