失敗を成功として再利用:命令追従のためのサンプル効率的な強化学習
Research Paper#Reinforcement Learning, Large Language Models, Instruction Following🔬 Research|分析: 2026年1月3日 18:48•
公開: 2025年12月29日 13:31
•1分で読める
•ArXiv分析
本論文は、大規模言語モデル(LLM)を用いた命令追従における強化学習(RL)のサンプル非効率性の問題に取り組んでいます。核心となるアイデアであるHindsight instruction Replay(HiR)は、失敗した試みを、満たされた制約に基づいて成功として再解釈するというアプローチにおいて革新的です。これは、初期のLLMモデルがしばしば苦戦し、スパースな報酬につながるため、特に重要です。提案された方法の二重選好学習フレームワークとバイナリ報酬シグナルも、その効率性において注目に値します。本論文の貢献は、命令追従のためのRLにおけるサンプル効率を改善し、計算コストを削減することにあり、これはLLMのアライメントにとって重要な分野です。