DMP-TTS:連鎖ガイダンスによる制御可能なテキスト読み上げのための、分離されたマルチモーダルプロンプティング

Research#llm🔬 Research|分析: 2026年1月4日 07:25
公開: 2025年12月10日 10:28
1分で読める
ArXiv

分析

この記事は、制御と柔軟性を重視した新しいテキスト読み上げ(TTS)アプローチであるDMP-TTSを紹介しています。分離されたマルチモーダルプロンプティングと連鎖ガイダンスの使用は、生成された音声の制御性を向上させ、より微妙で表現力豊かな出力を可能にする試みを示唆しています。「分離された」プロンプティングに焦点を当てることは、音声生成のさまざまな側面(例:韻律、感情、話者のアイデンティティ)を分離し、制御しようとする努力を意味します。
引用・出典
原文を見る
"DMP-TTS: Disentangled multi-modal Prompting for Controllable Text-to-Speech with Chained Guidance"
A
ArXiv2025年12月10日 10:28
* 著作権法第32条に基づく適法な引用です。