Safety#LLM🔬 Research分析: 2026年1月10日 11:38LLM 拒绝不一致性:探究随机性和安全性之间的影响发布:2025年12月12日 22:29•1分で読める•ArXiv分析本文强调了大型语言模型的一个关键漏洞:其拒绝行为的不可预测性。这项研究强调了在评估和部署 LLM 安全机制时采用严格测试方法的重要性。要点•LLM 的拒绝行为对随机种子和温度等参数的微小变化高度敏感。•这种不稳定性可能导致安全结果不一致,即相同的提示可能会引发不同的响应。•这些发现需要在 LLM 中采用更强大的评估和校准方法,以确保可靠的安全性。引用“这项研究分析了随机种子和温度设置如何影响 LLM 拒绝潜在有害提示的倾向。”较旧VOYAGER: LLM-Driven Dataset Generation Without Training较新Instruction-Tuning Language Models for BPMN Model Generation相关分析Safety介绍青少年安全蓝图2026年1月3日 09:26来源: ArXiv