Safety#LLM🔬 Research分析: 2026年1月10日 11:38

LLM 拒绝不一致性:探究随机性和安全性之间的影响

发布:2025年12月12日 22:29
1分で読める
ArXiv

分析

本文强调了大型语言模型的一个关键漏洞:其拒绝行为的不可预测性。这项研究强调了在评估和部署 LLM 安全机制时采用严格测试方法的重要性。

引用

这项研究分析了随机种子和温度设置如何影响 LLM 拒绝潜在有害提示的倾向。