GT-HarmBench:用博弈论革新AI安全

safety#agent🔬 Research|分析: 2026年2月16日 05:02
发布: 2026年2月16日 05:00
1分で読める
ArXiv AI

分析

这项新研究推出了GT-HarmBench,这是一个突破性的基准,专门设计用于评估前沿AI系统在多智能体环境中的安全性。通过利用博弈论,该基准提供了一个全面的框架,用于理解和减轻与协调失败和冲突相关的潜在风险,为更强大和可靠的AI系统铺平道路。
引用 / 来源
查看原文
"在15个前沿模型中,智能体仅在62%的案例中选择对社会有益的行动,这经常导致有害结果。"
A
ArXiv AI2026年2月16日 05:00
* 根据版权法第32条进行合法引用。