处理文本语料库聚类分析中的异常值

发布:2025年12月15日 16:03
1分で読める
r/LanguageTechnology

分析

这篇文章描述了文本分析中的一个挑战:在执行聚类分析时,处理大量不常见的单词对(异常值)。作者旨在识别具有统计学意义的单词对并提取上下文知识。该过程涉及在句子中配对单词(PREC 和 LAST),计算它们的距离,并计算它们的出现次数。核心问题是存在大量不经常出现的单词对,这会对 K-Means 聚类产生负面影响。作者指出,在聚类之前过滤这些异常值并不能显着改善结果。这个问题围绕着如何有效地处理这些异常值以改善聚类并提取有意义的上下文信息。

引用

例如,现在很容易搜索 DATA 中 LAST="House",并按距离/计数对结果进行排序以获得一些主要信息。