TrGLUEとSentiTurcaの紹介:トルコ語NLPのベンチマーク

公開:2025年12月26日 18:02
1分で読める
ArXiv

分析

この論文は、トルコ語の自然言語理解(NLU)と感情分析のための包括的なベンチマークの欠如に対処しています。GLUEスタイルのベンチマークであるTrGLUEと、感情分析ベンチマークであるSentiTurcaを紹介し、NLP分野における大きなギャップを埋めています。これらのベンチマークの作成と提供されたコードは、TransformerやLLMを含むトルコ語NLPモデルの研究と評価を促進します。半自動データ作成パイプラインも注目に値し、データセット生成のためのスケーラブルで再現可能な方法を提供しています。

参照

TrGLUEは、GLUEスタイルの評価のドメインとタスクの形式を反映するようにキュレーションされたトルコ語ネイティブのコーパスで構成されており、強力なLLMベースのアノテーション、クロスモデル合意チェック、およびその後の人間の検証を組み合わせた半自動パイプラインを介してラベルが取得されます。