Safety#LLM🔬 Research分析: 2026年1月10日 10:26

大規模言語モデルにおける脱獄オペレーターとしての敵対的詩作

公開:2025年12月17日 11:55
1分で読める
ArXiv

分析

この研究は、敵対的な詩作を用いてLLMの安全プロトコルを回避する新しいアプローチを調査しています。この発見は、現在のLLMの防御における脆弱性を浮き彫りにし、敵対的攻撃戦略に関する洞察を提供します。

参照

この研究は、敵対的攻撃におけるポルトガル語の詩の使用を探求しています。