DarkPatterns-LLM:用于检测操纵性AI行为的基准

Paper#llm🔬 Research|分析: 2026年1月3日 20:00
发布: 2025年12月27日 05:05
1分で読める
ArXiv

分析

本文介绍了 DarkPatterns-LLM,这是一个旨在评估大型语言模型 (LLM) 的操纵性和有害行为的新基准。它通过提供一种细粒度、多维的方法来检测操纵,超越了简单的二元分类,从而解决了现有安全基准中的关键差距。该框架的四层分析流程和七个危害类别(法律/权力、心理、情感、身体、自主、经济和社会危害)的包含提供了对 LLM 输出的全面评估。对最先进模型的评估突出了性能差异和弱点,特别是在检测破坏自主性的模式方面,强调了该基准对于提高 AI 可信度的重要性。
引用 / 来源
查看原文
"DarkPatterns-LLM establishes the first standardized, multi-dimensional benchmark for manipulation detection in LLMs, offering actionable diagnostics toward more trustworthy AI systems."
A
ArXiv2025年12月27日 05:05
* 根据版权法第32条进行合法引用。