开创性的希伯来语 NLP 资源发布:大规模开源句子语料库!
分析
这对希伯来语自然语言处理(NLP)界来说是个好消息! 创建一个开源的希伯来语维基百科句子语料库,为研究人员和开发人员提供了宝贵的资源。 该数据集无疑将推动希伯来语 AI 应用程序的创新。
要点
- •该数据集包含来自 366,000 多个希伯来语维基百科文章的约 1100 万个句子。
- •它在 HuggingFace 上可用,并根据 CC BY-SA 3.0 许可证获得许可,该许可证与维基百科相同。
- •该语料库已清理并去重,为各种 NLP 任务提供了高质量的基础。
引用 / 来源
查看原文"我刚刚发布了我一直在研究的数据集:从整个希伯来语维基百科中提取的句子级语料库。"