AHA:减少大型音频语言模型中的音频幻觉

发布:2025年12月30日 07:52
1分で読める
ArXiv

分析

本文解决了大型音频语言模型(LALM)中幻觉的关键问题。它确定了具体的接地失败类型,并提出了一个新颖的框架AHA来缓解这些问题。使用反事实硬负样本挖掘和专门的评估基准(AHA-Eval)是关键贡献。在AHA-Eval和公共基准上展示的性能提升突出了这项工作的实际意义。

引用

AHA框架利用反事实硬负样本挖掘,构建了一个高质量的偏好数据集,迫使模型区分严格的声学证据和语言上看似合理的虚构。