谷歌发布下一代语音生成AI“Gemini 3.1 Flash TTS”,可用自然语言控制表达

product#voice📝 Blog|分析: 2026年4月16日 22:46
发布: 2026年4月16日 05:21
1分で読める
ITmedia AI+

分析

谷歌发布了“Gemini 3.1 Flash TTS”,通过允许创作者使用简单的自然语言命令来控制语音表达,将文本转语音技术推向了令人激动的新高度。通过将指令直接嵌入文本中,用户可以毫不费力地控制语速、情感和语调,从而生成高度逼真且充满动感的语音。该模型在Artificial Analysis排行榜上取得了突破性的Elo分数,证明了对于希望构建身临其境的自然语音生成式人工智能应用的开发者来说,这是一个令人无比兴奋的重大突破。
引用 / 来源
查看原文
"通过新引入的“样式标签”功能,可以将自然语言命令(例如“低语”或“稍微说快点”)直接嵌入到文本中,从而实现对各种风格、语速和表达的精细控制。"
I
ITmedia AI+2026年4月16日 05:21
* 根据版权法第32条进行合法引用。