マルチターン会話における行動誘発

Research Paper#Large Language Models (LLMs), Conversational AI, Behavior Elicitation, Evaluation🔬 Research|分析: 2026年1月3日 17:00
公開: 2025年12月29日 18:57
1分で読める
ArXiv

分析

この論文は、マルチターン会話設定における大規模言語モデル(LLM)の評価という重要な問題に取り組んでいます。主にシングルターンシナリオ向けに設計された既存の行動誘発技術を、より複雑なマルチターンコンテキストに拡張しています。この論文の貢献は、誘発方法を分類するための分析フレームワーク、オンライン方法の一般化されたマルチターン定式化の導入、およびこれらの方法のマルチターンテストケース生成に関する経験的評価にあります。この結果は、オンライン方法が行動誘発入力を発見する上で効果的であることを強調しており、特に静的メソッドと比較して、LLM評価における動的ベンチマークの必要性を強調しています。
引用・出典
原文を見る
"Online methods can achieve an average success rate of 45/19/77% with just a few thousand queries over three tasks where static methods from existing multi-turn conversation benchmarks find few or even no failure cases."
A
ArXiv2025年12月29日 18:57
* 著作権法第32条に基づく適法な引用です。