Qwen3.5-Omniが発表: 数千億のパラメータとSOTAの音声・視覚理解を実現するマルチモーダルの飛躍

research#multimodal🔬 Research|分析: 2026年4月20日 04:10
公開: 2026年4月20日 04:00
1分で読める
ArXiv Audio Speech

分析

新しいQwen3.5-Omniは、マルチモーダルな生成AIにおける興味深い進化を代表しており、数千億のパラメータへのスケールアップと、256kの巨大なコンテキストウィンドウをサポートしています。1億時間以上の音声・視覚データでファインチューニングされたこのモデルは、重要な音声タスクでGemini-3.1 Proを上回る息を呑むような最高水準の結果を達成しています。その革新的なアーキテクチャにより、10時間を超える連続音声の理解が可能になるなど、信じられないほど深い理解力を実現しています。
引用・出典
原文を見る
"Qwen3.5-Omni-plusは、215の音声および音声・視覚の理解、推論、対話のサブタスクとベンチマーク全体でSOTA(最高水準)の結果を達成し、主要な音声タスクではGemini-3.1 Proを上回り、包括的な音声・視覚理解ではそれに匹敵する成績を収めています。"
A
ArXiv Audio Speech2026年4月20日 04:00
* 著作権法第32条に基づく適法な引用です。