適応性の代償を回避する：安定性による線形コンテキストバンディットにおける推論

Research #llm 🔬 Research|分析: 2025年12月25日 04:31•

公開: 2025年12月24日 05:00

•

1分で読める

分析

このArXiv論文は、コンテキストバンディットアルゴリズムにおける重要な課題、つまり、適応的に収集されたデータの非i.i.d.性によって信頼区間が膨張する「適応性の代償」に対処しています。この論文では、ペナルティ付きEXP4アルゴリズムを提案し、それがLai-Wei安定性条件を満たすことを示しています。この安定性により、通常の$\\sqrt{d \\log T}$の膨張なしに、古典的なWald型信頼区間を使用できます。この論文の重要性は、パフォーマンスを犠牲にすることなく、コンテキストバンディットにおける信頼性の高い推論のための方法を提供し、ミニマックス最適な後悔保証を達成することにあります。これは、強化学習と統計的推論の分野への貴重な貢献です。

重要ポイント

引用・出典

原文を見る

"When stability holds, the ordinary least-squares estimator satisfies a central limit theorem, and classical Wald-type confidence intervals -- designed for i.i.d. data -- become asymptotically valid even under adaptation, \emph{without} incurring the $\\sqrt{d \\log T}$ price of adaptivity."

ArXiv Stats ML2025年12月24日 05:00

* 著作権法第32条に基づく適法な引用です。

古い記事

KAN-AFT: Interpretable Nonlinear Survival Model with Kolmogorov-Arnold Networks and Accelerated Failure Time Analysis

新しい記事

Shallow Neural Networks Learn Low-Degree Spherical Polynomials with Learnable Channel Attention

適応性の代償を回避する：安定性による線形コンテキストバンディットにおける推論

分析

重要ポイント

関連分析

人間によるAI検出

深層学習の実装に焦点を当てた書籍

Geminiのパーソナライズ

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック