训练数据中的警告对语言模型适得其反
分析
这篇论文突出了当前语言模型的一个关键漏洞:它们无法从以警告形式呈现的负面例子中学习。研究表明,接触过关于有害内容的警告的模型,与直接接触过该内容的模型一样,更有可能重现该内容。这对人工智能系统的安全性与可靠性,特别是那些在包含警告或免责声明的数据上训练的系统,具有重大影响。该论文使用稀疏自编码器进行的分析,提供了对潜在机制的见解,指出了正交化的失败以及统计共现压倒实用理解。研究结果表明,当前的架构优先考虑内容与其上下文的关联,而不是其背后的含义或意图。
引用
“接触过此类警告的模型重现被标记内容的比例与直接获得该内容的模型在统计上没有区别(76.7% vs. 83.3%)。”