間接的プロンプトインジェクションに対しLlamaGuardとOpenAIを上回る革新的な多層検出器
分析
このエキサイティングな開発は、本番環境で見過ごされがちな間接的プロンプト攻撃を見事に捕捉する、非常に効果的な多層防御メカニズムを導入しています。著者はSVM(サポートベクターマシン)とFisher-Rao幾何学を組み合わせることで、素晴らしいF1スコア0.947を達成し、偽陽性ゼロで業界標準を上回る結果を残しました。慎重に選択されたハードネガティブを活用して適切に調整されたSVMが、分布外(OOD)のシナリオで大規模なTransformerモデルを成功裏に上回り、AIの安全性に対して非常に効率的でスケーラビリティの高いアプローチを提供していることは特に刺激的です!
重要ポイント
- •カスタムArc Gate検出器は、トリッキーな分布外(OOD)攻撃に対して優れたF1スコア0.947を達成し、OpenAI Moderation API(0.86)やLlamaGuard 3 8B(0.71)を大幅に上回りました。
- •このシステムは素晴らしい4層アーキテクチャを利用しており、Embeddings上のSVM分類器とFisher-Rao幾何学を組み合わせることで、マルチターン攻撃を捕捉しつつ、良性のプロンプトで偽陽性を引き起こしません。
- •現在のトレンドに反して、このプロジェクトは、高品質なハードネガティブと限られた訓練データを備えれば、SVMのような古典的なアルゴリズムが特定の分類タスクで大規模言語モデルを超越できることを証明しています。
引用・出典
原文を見る"限られたデータの場合、適切なハードネガティブを持つ適切に調整されたSVMは、常にTransformerを打ち負かします。"