AI智能体通过自主优化LLM评估工具达到SOTA

research#llm📝 Blog|分析: 2026年4月7日 20:24
发布: 2026年4月5日 03:59
1分で読める
Zenn DL

分析

Meta-Harness引入了一种迷人的递归改进机制,即编码智能体改进用于衡量它们的评估框架,并在TerminalBench-2上获得最高排名。通过自动化劳动密集型的提示工程流程,该系统能够发现人类研究人员经常忽略的优化策略。
引用 / 来源
查看原文
"Meta-Harness提出了一种系统,其中编码智能体自动优化LLM评估工具(指定模型回答方式的封装代码),在TerminalBench-2上的Haiku 4.5智能体中排名第一,并在文本分类中比手动工具高出7.7个百分点。"
Z
Zenn DL2026年4月5日 03:59
* 根据版权法第32条进行合法引用。