AlignAR:アラビア語-英語並列コーパスのためのLLMベースの文アライメント
分析
この論文は、機械翻訳と翻訳教育に不可欠な高品質のアラビア語-英語並列コーパスの不足に対処しています。AlignARという生成的な文アライメント手法と、複雑な法律および文学テキストに焦点を当てた新しいデータセットを紹介しています。主な貢献は、従来のメソッドと比較して、LLMベースのアプローチが優れたパフォーマンスを発揮することを示したことです。特に、アライメントアルゴリズムに挑戦するように設計された「Hard」サブセットにおいて顕著です。データセットとコードのオープンソース化も重要な貢献です。