DarkPatterns-LLM:操作的なAI行動を検出するためのベンチマーク

Paper#llm🔬 Research|分析: 2026年1月3日 20:00
公開: 2025年12月27日 05:05
1分で読める
ArXiv

分析

この論文は、大規模言語モデル(LLM)の操作的で有害な行動を評価するために設計された新しいベンチマーク、DarkPatterns-LLMを紹介しています。既存の安全ベンチマークにおける重要なギャップに対処し、単純な二元分類を超えて、操作を検出するためのきめ細かく多次元的なアプローチを提供します。フレームワークの4層分析パイプラインと、7つの危害カテゴリ(法的/権力、心理的、感情的、身体的、自律性、経済的、社会的危害)の包含は、LLM出力の包括的な評価を提供します。最先端モデルの評価は、パフォーマンスのばらつきと弱点、特に自律性を損なうパターンを検出することにおける弱点を浮き彫りにし、AIの信頼性を向上させるためのこのベンチマークの重要性を強調しています。
引用・出典
原文を見る
"DarkPatterns-LLM establishes the first standardized, multi-dimensional benchmark for manipulation detection in LLMs, offering actionable diagnostics toward more trustworthy AI systems."
A
ArXiv2025年12月27日 05:05
* 著作権法第32条に基づく適法な引用です。