Facebook 在现实世界决策中的离线、离策略 RL - #448
分析
这篇文章总结了 Practical AI 的一集播客,嘉宾是 Facebook AI 的软件工程经理 Jason Gauci。讨论围绕 Facebook 的强化学习平台 Re-Agent (Horizon) 展开。 谈话涵盖了决策制定和博弈论在该平台中的应用,包括其在排名、推荐和电子商务中的应用。 这一集还深入探讨了在线/离线和在线/离策略模型训练的区别,并将 Re-Agent 放在这个框架内。 最后,讨论涉及反事实因果关系和模型结果的安全性措施。 这篇文章提供了播客中讨论主题的概要。
要点
引用
“这一集探讨了他们的强化学习平台 Re-Agent (Horizon)。”