新ベンチマークが実世界の音声エージェントタスクにおけるGPTとGeminiの強みを明らかに

research#voice agent🔬 Research|分析: 2026年4月7日 21:06
公開: 2026年4月7日 04:00
1分で読める
ArXiv Audio Speech

分析

この研究では、吃音や自己修正といった自然な非流暢さを含む実際の人間の音声を使用して、音声エージェントを評価するための重要な新しいベンチマークが紹介されています。GPT-RealtimeやGemini Live 3.1といったトップクラスのモデルが、複雑なマルチステップのツール使用を処理できるかどうか試行されていることはエキサイティングであり、業界を真に会話型のAIへと近づけています。「全二重」機能(話しながら聞き、考える能力)への注目は、シームレスな人間とコンピュータの相互作用を生み出す上で大きな前進となります。
引用・出典
原文を見る
"GPT-RealtimeはPass@1(0.600)と中断回避(13.5%)でリードしており、Gemini Live 3.1は最速のレイテンシ(4.25秒)を達成しましたが、ターン取得率は最低(78.0%)でした。"
A
ArXiv Audio Speech2026年4月7日 04:00
* 著作権法第32条に基づく適法な引用です。