LLMの解釈可能な安全性アライメント

Paper#LLM🔬 Research|分析: 2026年1月3日 19:02
公開: 2025年12月29日 07:39
1分で読める
ArXiv

分析

この論文は、大規模言語モデル(LLM)のファインチューニングにおける低ランク適応法の解釈可能性の欠如に対処しています。スパースオートエンコーダ(SAE)を使用して、タスク関連の特徴を分離された特徴空間で特定し、解釈可能な低ランク部分空間を安全性アライメントのために構築する新しいアプローチを提案しています。この方法は、少数のパラメータを更新しながら高い安全率を達成し、学習されたアライメント部分空間に関する洞察を提供します。
引用・出典
原文を見る
"The method achieves up to 99.6% safety rate--exceeding full fine-tuning by 7.4 percentage points and approaching RLHF-based methods--while updating only 0.19-0.24% of parameters."
A
ArXiv2025年12月29日 07:39
* 著作権法第32条に基づく適法な引用です。