新基准揭示GPT和Gemini在现实世界语音智能体任务中的优势

research#voice agent🔬 Research|分析: 2026年4月7日 21:06
发布: 2026年4月7日 04:00
1分で読める
ArXiv Audio Speech

分析

这项研究引入了一个至关重要的新基准,旨在使用包含口吃或自我修正等自然不流利现象的真实人类语音来评估语音智能体。令人兴奋的是,GPT-Realtime和Gemini Live 3.1等顶级模型正在接受处理复杂的多步骤工具使用的挑战,这将推动行业向真正的会话式AI迈进。对“全双工”能力——即在说话的同时进行倾听和思考——的关注,标志着在创造无缝人机交互方面迈出了重要一步。
引用 / 来源
查看原文
"GPT-Realtime在Pass@1(0.600)和避免中断(13.5%)方面领先;Gemini Live 3.1实现了最快的延迟(4.25秒),但轮流说话率最低(78.0%)。"
A
ArXiv Audio Speech2026年4月7日 04:00
* 根据版权法第32条进行合法引用。