通过“物理核心约束”阻止LLM幻觉:IDE / Nomological Ring Axioms
分析
本文提出了一种设计原则,旨在防止大型语言模型(LLM)在不应该回答时进行回答,将其构建为一个“Fail-Closed”系统。它侧重于结构性约束,而不是提高准确性或进行基准测试。核心思想是使用“物理核心约束”以及IDE(理想、定义、强制执行)和Nomological Ring Axioms等概念,以确保LLM在不确定或不适当的情况下避免生成响应。 这种方法旨在通过防止LLM在面对数据不足或模糊查询时产生幻觉或提供不正确的信息,从而提高LLM的安全性和可靠性。文章强调了一种积极主动的LLM安全预防方法。
引用
“将现有LLM在“即使不应该回答也回答”的问题,在结构上作为“不能(Fail-Closed)”处理的设计原理...”