ReasonBENCH:LLM推論の(非)安定性のベンチマーク

Research#llm🔬 Research|分析: 2026年1月4日 07:25
公開: 2025年12月8日 18:26
1分で読める
ArXiv

分析

この記事では、推論タスクにおける大規模言語モデル(LLM)の一貫性と信頼性を評価するために設計されたベンチマーク、ReasonBENCHを紹介しています。安定性に焦点を当てていることから、複数の実行やさまざまな条件下でのLLMのパフォーマンスを調査していることが示唆されており、これは現実世界のアプリケーションにとって非常に重要です。「In」という言葉をタイトルで使用していることから、不安定性の可能性が示唆されており、LLMの推論能力に対する重要な評価が行われていることがわかります。
引用・出典
原文を見る
"ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning"
A
ArXiv2025年12月8日 18:26
* 著作権法第32条に基づく適法な引用です。