テキストコーパスのクラスタ分析における外れ値の処理
Research#Natural Language Processing👥 Community|分析: 2025年12月28日 21:56•
公開: 2025年12月15日 16:03
•1分で読める
•r/LanguageTechnology分析
この記事は、テキスト分析における課題について説明しています。それは、クラスタ分析を実行する際に、多数の頻度の低い単語ペア(外れ値)を扱うことです。著者は、統計的に有意な単語ペアを特定し、文脈的な知識を抽出することを目指しています。このプロセスには、文内の単語(PRECとLAST)をペアにし、それらの距離を計算し、出現回数をカウントすることが含まれます。主な問題は、頻繁に現れない多数の単語ペアの存在であり、これがK-Meansクラスタリングに悪影響を及ぼします。著者は、クラスタリングの前にこれらの外れ値をフィルタリングしても、結果が大幅に改善されないことに言及しています。この質問は、クラスタリングを改善し、意味のある文脈情報を抽出するために、これらの外れ値を効果的に処理する方法に焦点を当てています。
重要ポイント
引用・出典
原文を見る"Now it's easy enough to e.g. search DATA for LAST="House" and order the result by distance/count to derive some primary information."