分析
この論文は、単一の脆弱性検出を超えたLLMセキュリティ研究における重要なギャップに対処しています。 複数の脆弱性が同時に発生することが多い現実世界のコードの複雑さを処理する際の、現在のLLMの限界を浮き彫りにしています。 マルチ脆弱性ベンチマークの導入と、最先端のLLMの評価は、そのパフォーマンスと失敗モード、特に脆弱性の密度と言語固有の課題の影響について貴重な洞察を提供します。
重要ポイント
参照
“パフォーマンスは高密度設定で最大40%低下し、PythonとJavaScriptは異なる失敗モードを示し、モデルは深刻な「過小カウント」を示します。”