Qwen3.5-Omni发布:千亿参数实现尖端多模态音视频推理的重大飞跃
ArXiv Audio Speech•2026年4月20日 04:00•research▸▾
分析
全新的Qwen3.5-Omni代表了生成式人工智能领域的一次激动人心的进化,不仅将参数规模扩展至数千亿,还支持高达256k的超大上下文窗口。通过在超过1亿小时的视听数据上进行训练,该模型取得了令人惊叹的最先进成果,甚至在关键音频任务中超越了Gemini-3.1 Pro。其创新的架构赋予了它极其出色的深度理解能力,能够处理超过10小时的连续音频。
要点与引用▶
引用 / 来源
查看原文"Qwen3.5-Omni-plus在215个音频及音视频理解、推理和交互子任务与基准测试中取得了SOTA(最先进)成果,在关键音频任务上超越了Gemini-3.1 Pro,并在综合音视频理解能力上与之不相上下。"