失敗を成功として再利用:命令追従のためのサンプル効率的な強化学習

公開:2025年12月29日 13:31
1分で読める
ArXiv

分析

本論文は、大規模言語モデル(LLM)を用いた命令追従における強化学習(RL)のサンプル非効率性の問題に取り組んでいます。核心となるアイデアであるHindsight instruction Replay(HiR)は、失敗した試みを、満たされた制約に基づいて成功として再解釈するというアプローチにおいて革新的です。これは、初期のLLMモデルがしばしば苦戦し、スパースな報酬につながるため、特に重要です。提案された方法の二重選好学習フレームワークとバイナリ報酬シグナルも、その効率性において注目に値します。本論文の貢献は、命令追従のためのRLにおけるサンプル効率を改善し、計算コストを削減することにあり、これはLLMのアライメントにとって重要な分野です。

参照

HiRフレームワークは、事後的に満たされた制約に基づいて、失敗した試みを成功として再利用するために、選択と書き換え戦略を採用しています。