現実世界RLにおける最適でない人間介入の活用

公開:2025年12月30日 15:26
1分で読める
ArXiv

分析

この論文は、現実世界強化学習における重要な課題、つまり、最適でない可能性のある人間介入を、それらに過度に制約されることなく、学習を加速するためにどのように効果的に利用するかという問題に取り組んでいます。提案されたSiLRIアルゴリズムは、問題を制約付きRL最適化として定式化し、状態ごとのラグランジュ乗数を使用して人間介入の不確実性を考慮することにより、新しいアプローチを提供します。結果は、既存の方法と比較して、学習速度と成功率の大幅な改善を示しており、ロボット操作におけるこのアプローチの実用的な価値を強調しています。

参照

SiLRIは、人間の最適でない介入を効果的に利用し、最先端のRL手法であるHIL-SERLと比較して、90%の成功率に到達するのに必要な時間を少なくとも50%削減し、他のRL手法が成功に苦労する長期間の操作タスクで100%の成功率を達成します。