基于蒸馏HuBERT的移动端语音情感识别
分析
本文解决了在移动设备上部署语音情感识别(SER)的挑战,提出了一种基于蒸馏HuBERT的移动高效系统。作者展示了在显著减小模型大小的同时保持了具有竞争力的准确性,使其适用于资源受限的环境。跨语料库验证和对不同数据集(IEMOCAP、CREMA-D、RAVDESS)的性能分析,提供了关于模型泛化能力和局限性的宝贵见解,特别是关于表演情感的影响。
要点
引用
“该模型实现了61.4%的未加权准确率,量化模型占用空间仅为23 MB,大约是全尺寸基线的未加权准确率的91%。”