信頼性の高いコンセンサスサンプリングによる証明可能な安全性を持つ生成AI

Research Paper#Generative AI Security, Provable Security, Consensus Sampling🔬 Research|分析: 2026年1月3日 06:21
公開: 2025年12月31日 15:33
1分で読める
ArXiv

分析

本論文は、経験的な攻撃と防御のサイクルを超えて、証明可能な安全性を持つ生成AIの重要な必要性に取り組んでいます。既存のコンセンサスサンプリング(CS)の限界を特定し、堅牢性、有用性を向上させ、アブステインを排除するために、信頼性の高いコンセンサスサンプリング(RCS)を提案しています。安全性を動的に強化するためのフィードバックアルゴリズムの開発が重要な貢献です。
引用・出典
原文を見る
"RCS traces acceptance probability to tolerate extreme adversarial behaviors, improving robustness. RCS also eliminates the need for abstention entirely."
A
ArXiv2025年12月31日 15:33
* 著作権法第32条に基づく適法な引用です。