CASTELLA:带有字幕和时间边界的长音频数据集

Research#Audio🔬 Research|分析: 2026年1月10日 14:35
发布: 2025年11月19日 05:19
1分で読める
ArXiv

分析

本文介绍了CASTELLA,这是一个旨在提高音频理解能力的新数据集。该数据集侧重于长音频和时间边界,代表了该领域的重大进步,可能改善基于音频的 AI 模型的性能。
引用 / 来源
查看原文
"The article introduces a long audio dataset with captions and temporal boundaries."
A
ArXiv2025年11月19日 05:19
* 根据版权法第32条进行合法引用。