语音转录的段落分割

发布:2025年12月30日 23:29
1分で読める
ArXiv

分析

本文解决了非结构化语音转录的问题,通过引入段落分割使其更具可读性和可用性。它建立了专门针对语音的新基准(TEDPara和YTSegPara),提出了一种用于大型语言模型的约束解码方法,并引入了一个实现最先进结果的紧凑模型(MiniSeg)。这项工作弥合了语音处理和文本分割之间的差距,为结构化语音数据提供了实用的解决方案和资源。

引用

本文建立了TEDPara和YTSegPara作为语音领域段落分割任务的第一个基准。