处理文本语料库聚类分析中的异常值

Research#Natural Language Processing👥 Community|分析: 2025年12月28日 21:56
发布: 2025年12月15日 16:03
1分で読める
r/LanguageTechnology

分析

这篇文章描述了文本分析中的一个挑战:在执行聚类分析时,处理大量不常见的单词对(异常值)。作者旨在识别具有统计学意义的单词对并提取上下文知识。该过程涉及在句子中配对单词(PREC 和 LAST),计算它们的距离,并计算它们的出现次数。核心问题是存在大量不经常出现的单词对,这会对 K-Means 聚类产生负面影响。作者指出,在聚类之前过滤这些异常值并不能显着改善结果。这个问题围绕着如何有效地处理这些异常值以改善聚类并提取有意义的上下文信息。
引用 / 来源
查看原文
"Now it's easy enough to e.g. search DATA for LAST="House" and order the result by distance/count to derive some primary information."
R
r/LanguageTechnology2025年12月15日 16:03
* 根据版权法第32条进行合法引用。