DarkPatterns-LLM:用于检测操纵性AI行为的基准
分析
本文介绍了 DarkPatterns-LLM,这是一个旨在评估大型语言模型 (LLM) 的操纵性和有害行为的新基准。它通过提供一种细粒度、多维的方法来检测操纵,超越了简单的二元分类,从而解决了现有安全基准中的关键差距。该框架的四层分析流程和七个危害类别(法律/权力、心理、情感、身体、自主、经济和社会危害)的包含提供了对 LLM 输出的全面评估。对最先进模型的评估突出了性能差异和弱点,特别是在检测破坏自主性的模式方面,强调了该基准对于提高 AI 可信度的重要性。