介绍TrGLUE和SentiTurca:土耳其语NLP基准

Research Paper#Natural Language Processing, Benchmarking, Turkish Language, LLMs🔬 Research|分析: 2026年1月3日 16:32
发布: 2025年12月26日 18:02
1分で読める
ArXiv

分析

本文解决了土耳其语自然语言理解(NLU)和情感分析缺乏全面基准的问题。它介绍了TrGLUE,一个GLUE风格的基准,以及SentiTurca,一个情感分析基准,填补了NLP领域的一个重要空白。这些基准的创建以及提供的代码将促进对土耳其语NLP模型(包括transformers和LLM)的研究和评估。半自动数据创建流程也值得关注,它提供了一种可扩展且可重复的数据集生成方法。
引用 / 来源
查看原文
"TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation."
A
ArXiv2025年12月26日 18:02
* 根据版权法第32条进行合法引用。