LLMの解釈可能な安全性アライメントPaper#LLM🔬 Research|分析: 2026年1月3日 19:02•公開: 2025年12月29日 07:39•1分で読める•ArXiv分析この論文は、大規模言語モデル(LLM)のファインチューニングにおける低ランク適応法の解釈可能性の欠如に対処しています。スパースオートエンコーダ(SAE)を使用して、タスク関連の特徴を分離された特徴空間で特定し、解釈可能な低ランク部分空間を安全性アライメントのために構築する新しいアプローチを提案しています。この方法は、少数のパラメータを更新しながら高い安全率を達成し、学習されたアライメント部分空間に関する洞察を提供します。重要ポイント•LLMにおける解釈可能な安全性アライメントのための新しい方法を提案。•タスク関連の特徴を特定するためにスパースオートエンコーダ(SAE)を使用。•アライメントのために解釈可能な低ランク部分空間を構築。•パラメータ効率の良いファインチューニングで高い安全率を達成。•学習されたアライメント部分空間に関する洞察を提供する。引用・出典原文を見る"The method achieves up to 99.6% safety rate--exceeding full fine-tuning by 7.4 percentage points and approaching RLHF-based methods--while updating only 0.19-0.24% of parameters."AArXiv2025年12月29日 07:39* 著作権法第32条に基づく適法な引用です。古い記事Global stability and asymptotic behavior for incompressible ideal MHD equations with velocity damping term新しい記事Contour Information Aware 2D Gaussian Splatting for Image Representation関連分析Paper未ポーズ画像からの即時3Dシーン編集2026年1月3日 06:10Paper選択ポリシーを用いた協調型人型ロボット操作2026年1月3日 06:10Paper将来予測のためのLLMフォアキャスティング2026年1月3日 06:10原文: ArXiv