满语TTS:面向濒危语言的高质量语音合成

发布:2025年12月27日 06:21
1分で読める
ArXiv

分析

本文解决了濒危语言满语的语音合成问题,该语言面临数据稀缺和复杂的黏着语问题。提出的ManchuTTS模型引入了分层文本表示、跨模态注意力、流匹配Transformer和分层对比损失等创新技术来克服这些挑战。专用数据集的创建和数据增强也为模型的有效性做出了贡献。结果,包括高MOS评分和在黏着词发音和韵律自然度方面的显着改进,表明了本文对低资源语音合成和语言保护领域的重大贡献。

引用

ManchuTTS使用5.2小时的训练子集实现了MOS 4.52...以显着的优势优于所有基线模型。