LLMの安全性:時間的および言語的脆弱性

公開:2025年12月31日 01:40
1分で読める
ArXiv

分析

この論文は、LLMの安全性が言語や時間枠を超えて一般化するという仮定に異議を唱えているため重要です。現在のLLM、特にグローバルサウスのユーザーにとっての重要な脆弱性を浮き彫りにしています。時間的フレーミングと言語が安全性のパフォーマンスを劇的に変える可能性があることを示しています。西アフリカの脅威シナリオに焦点を当て、「Safety Pockets」の特定は、より堅牢でコンテキストを意識した安全メカニズムの必要性を強調しています。

参照

この研究は、「時間的非対称性」を発見し、過去形でのフレーミングは防御を回避し(15.6%安全)、未来形のシナリオは過度に保守的な拒否を引き起こしました(57.2%安全)。