新ベンチマークが実世界の音声エージェントタスクにおけるGPTとGeminiの強みを明らかに
分析
この研究では、吃音や自己修正といった自然な非流暢さを含む実際の人間の音声を使用して、音声エージェントを評価するための重要な新しいベンチマークが紹介されています。GPT-RealtimeやGemini Live 3.1といったトップクラスのモデルが、複雑なマルチステップのツール使用を処理できるかどうか試行されていることはエキサイティングであり、業界を真に会話型のAIへと近づけています。「全二重」機能(話しながら聞き、考える能力)への注目は、シームレスな人間とコンピュータの相互作用を生み出す上で大きな前進となります。
重要ポイント
引用・出典
原文を見る"GPT-RealtimeはPass@1(0.600)と中断回避(13.5%)でリードしており、Gemini Live 3.1は最速のレイテンシ(4.25秒)を達成しましたが、ターン取得率は最低(78.0%)でした。"