JudgeBoard：推論評価のための小型言語モデルのベンチマークと改善

Research #SLM 🔬 Research|分析: 2026年1月10日 14:33•

公開: 2025年11月20日 01:14

•

1分で読める

分析

本研究は、小型言語モデル (SLM) の推論能力の評価と改善に焦点を当てています。これは、SLM の利用が増加していることを考えると、非常に重要な分野です。JudgeBoard ベンチマークは、さまざまな SLM の推論タスクにおけるパフォーマンスを評価し、比較するための貴重なツールを提供します。

引用・出典

"The research focuses on benchmarking and enhancing Small Language Models."

ArXiv2025年11月20日 01:14

* 著作権法第32条に基づく適法な引用です。

New Benchmark for Evaluating Complex Instruction-Following in Dialogues

Benchmarking Theory-of-Mind in AI Through Body Language Analysis