介绍TrGLUE和SentiTurca:土耳其语NLP基准

发布:2025年12月26日 18:02
1分で読める
ArXiv

分析

本文解决了土耳其语自然语言理解(NLU)和情感分析缺乏全面基准的问题。它介绍了TrGLUE,一个GLUE风格的基准,以及SentiTurca,一个情感分析基准,填补了NLP领域的一个重要空白。这些基准的创建以及提供的代码将促进对土耳其语NLP模型(包括transformers和LLM)的研究和评估。半自动数据创建流程也值得关注,它提供了一种可扩展且可重复的数据集生成方法。

引用

TrGLUE包含土耳其语原生语料库,这些语料库经过策划,以反映GLUE风格评估的领域和任务形式,标签通过半自动管道获得,该管道结合了强大的基于LLM的注释、跨模型一致性检查和后续的人工验证。