克服维度诅咒的最优单指标 Bandit 算法

发布:2025年12月31日 06:48
1分で読める
ArXiv

分析

本文提出了一种新的单指标 Bandit 算法,解决了上下文 Bandit 中的维度诅咒问题。它提供了非渐近理论,证明了极小极大最优性,并探讨了对未知平滑度的适应性。这项工作意义重大,因为它为推荐系统等现实世界应用中常见的高维 Bandit 问题提供了实用的解决方案。该算法适应未知平滑度的能力也是一项宝贵的贡献。

引用

该算法实现了与环境维度 $d$ 无关的极小极大最优后悔,从而克服了维度诅咒。