LLM输出中的零宽度字符 (U+200B)
分析
这篇 Reddit r/artificial 上的帖子强调了使用 Perplexity AI 时遇到的一个实际问题:生成的文本中存在零宽度字符(表示为方形符号)。用户正在调查这些字符的来源,推测潜在原因,例如 Unicode 规范化、不可见标记或模型标记机制。这个问题很重要,因为它会影响 LLM 生成文本的可用性,尤其是在导出到 Word 等富文本编辑器时。该帖子寻求社区对这些字符的性质以及清理或清理文本以删除它们的最佳实践的见解。这是许多用户在使用 LLM 和文本编辑器时面临的常见问题。
引用
““我观察到生成的文本中嵌入了许多小的方形符号 (⧈)。我正在尝试确定这些字符是否对应于隐藏的控制令牌,或者是在文本生成或编码过程中引入的元数据伪影。””