コーディングエージェントがLLM評価ハーネスを自動最適化しSOTAを達成

research#llm📝 Blog|分析: 2026年4月7日 20:24
公開: 2026年4月5日 03:59
1分で読める
Zenn DL

分析

Meta-Harnessは、コーディングエージェントが自らを測定する評価フレームワークを改良するという、興味深い再帰的な改善をもたらし、TerminalBench-2でトップランクを獲得しました。労働集約的なプロンプトエンジニアリングのプロセスを自動化することで、人間の研究者が見落としがちな最適化戦略を発見できます。
引用・出典
原文を見る
"Meta-Harnessは、コーディングエージェントがLLM評価ハーネス(モデルの回答方法を指定するラッパーコード)を自動最適化するシステムを提案。TerminalBench-2でHaiku 4.5エージェント中1位、テキスト分類で手作業ハーネス比+7.7ポイントを達成した。"
Z
Zenn DL2026年4月5日 03:59
* 著作権法第32条に基づく適法な引用です。