DarkPatterns-LLM：用于检测操纵性AI行为的基准

Paper #llm 🔬 Research|分析: 2026年1月3日 20:00•

发布: 2025年12月27日 05:05

•

1分で読める

分析

本文介绍了 DarkPatterns-LLM，这是一个旨在评估大型语言模型 (LLM) 的操纵性和有害行为的新基准。它通过提供一种细粒度、多维的方法来检测操纵，超越了简单的二元分类，从而解决了现有安全基准中的关键差距。该框架的四层分析流程和七个危害类别（法律/权力、心理、情感、身体、自主、经济和社会危害）的包含提供了对 LLM 输出的全面评估。对最先进模型的评估突出了性能差异和弱点，特别是在检测破坏自主性的模式方面，强调了该基准对于提高 AI 可信度的重要性。

要点

引用 / 来源

查看原文

"DarkPatterns-LLM establishes the first standardized, multi-dimensional benchmark for manipulation detection in LLMs, offering actionable diagnostics toward more trustworthy AI systems."

ArXiv2025年12月27日 05:05

* 根据版权法第32条进行合法引用。

较旧

Random Subset Averaging

较新

GraphLocator: Graph-guided Causal Reasoning for Issue Localization

DarkPatterns-LLM：用于检测操纵性AI行为的基准

分析

要点

相关分析

基于选择策略的协调人形机器人操作

从未对齐图像即时进行3D场景编辑

用于未来预测的LLM预测

📬 获取AI新闻

按类别浏览

热门话题

📬 获取AI新闻

按类别浏览

热门话题