分析
Google最新发布的Gemini 3.1 Flash TTS预览版是语音合成领域绝对的颠覆者,突破了生成式人工智能的能力边界。引入的200多种直观的“音频标签”允许创作者直接在文本中无缝注入耳语、笑声和叹息等情感,使AI声音听起来极其拟真。凭借对70多种语言的支持以及SynthID数字水印等内置安全功能,该模型必将彻底改变播客、有声读物制作和辅助工具的开发。
Aggregated news, research, and updates specifically regarding tts. Auto-curated by our AI Engine.
"通过新引入的“样式标签”功能,可以将自然语言命令(例如“低语”或“稍微说快点”)直接嵌入到文本中,从而实现对各种风格、语速和表达的精细控制。"
"实验结果表明,尽管没有复杂的 multistage 训练流程或高质量的人工注释数据集,LongCat-TTS 在 Seed 基准测试中实现了 SOTA 零样本语音克隆性能,同时保持了具有竞争力的可理解性。"
"Mistral 发布了 Voxtral TTS 模型,该模型快速、支持多语言,并且足够小,适合语音智能体。"
"“我们的客户一直在要求语音模型。 所以我们构建了一个小型语音模型,可以安装在智能手表、智能手机、笔记本电脑或其他边缘设备上。 它的成本只是市场上其他产品的很小一部分,但它提供了最先进的性能,”"
"作为人工智能原生云,Together AI 推出了一整套功能,以提供业界首个用于在共址的 STT、大语言模型和 TTS 基础设施上构建实时语音智能体的统一解决方案。"
"S2 在 Audio Turing Test 和 EmergentTTS-Eval 上击败了所有闭源模型,包括 Google 和 OpenAI!"