医療LLMにおける安全性の整合性を脅かす行動蒸留

Safety#LLM🔬 Research|分析: 2026年1月10日 12:24
公開: 2025年12月10日 07:57
1分で読める
ArXiv

分析

この研究は、医療用言語モデルの開発と展開における重要な脆弱性を浮き彫りにしており、特にブラックボックス行動蒸留が安全性の整合性を損なう可能性があることを示しています。この結果は、これらのモデルの完全性を維持するために、トレーニング方法と評価手順を注意深く検討する必要があります。
引用・出典
原文を見る
"Black-Box Behavioral Distillation Breaks Safety Alignment in Medical LLMs"
A
ArXiv2025年12月10日 07:57
* 著作権法第32条に基づく適法な引用です。