AI智能体通过自主优化LLM评估工具达到SOTA

research #llm 📝 Blog|分析: 2026年4月7日 20:24•

发布: 2026年4月5日 03:59

•

1分で読める

分析

Meta-Harness引入了一种迷人的递归改进机制，即编码智能体改进用于衡量它们的评估框架，并在TerminalBench-2上获得最高排名。通过自动化劳动密集型的提示工程流程，该系统能够发现人类研究人员经常忽略的优化策略。

引用 / 来源

"Meta-Harness提出了一种系统，其中编码智能体自动优化LLM评估工具（指定模型回答方式的封装代码），在TerminalBench-2上的Haiku 4.5智能体中排名第一，并在文本分类中比手动工具高出7.7个百分点。"

Zenn DL2026年4月5日 03:59

* 根据版权法第32条进行合法引用。

LlamaFactory: The Ultimate No-Code Framework for Fine-tuning 100+ LLMs

Optimizing Claude's Extended Thinking: A Practical Guide to Enhanced Reasoning