LLM埋め込みを用いたセマンティックツリー推論

公開:2025年12月29日 13:55
1分で読める
ArXiv

分析

この論文は、大規模言語モデル(LLM)の埋め込みに対して、ネストされた密度クラスタリングアプローチを用いて、テキストコーパス内の階層的な意味的関係を明らかにする新しい方法を紹介しています。単にLLM埋め込みを類似性ベースの検索に使用することの限界に対処し、データセットのグローバルな意味構造を可視化し理解する方法を提供します。このアプローチは、事前に定義されたカテゴリに依存することなく、データ駆動型の意味カテゴリとサブフィールドの発見を可能にするため、価値があります。複数のデータセット(科学論文の抄録、20 Newsgroups、IMDB)での評価は、この方法の一般的な適用性と堅牢性を示しています。

参照

この方法は、LLM埋め込み空間で密度の高いクラスターを検索することにより、強い意味的類似性を持つテキストを特定することから始まります。