Qwen3.5-Omniが発表: 数千億のパラメータとSOTAの音声・視覚理解を実現するマルチモーダルの飛躍
分析
新しいQwen3.5-Omniは、マルチモーダルな生成AIにおける興味深い進化を代表しており、数千億のパラメータへのスケールアップと、256kの巨大なコンテキストウィンドウをサポートしています。1億時間以上の音声・視覚データでファインチューニングされたこのモデルは、重要な音声タスクでGemini-3.1 Proを上回る息を呑むような最高水準の結果を達成しています。その革新的なアーキテクチャにより、10時間を超える連続音声の理解が可能になるなど、信じられないほど深い理解力を実現しています。
重要ポイント
引用・出典
原文を見る"Qwen3.5-Omni-plusは、215の音声および音声・視覚の理解、推論、対話のサブタスクとベンチマーク全体でSOTA(最高水準)の結果を達成し、主要な音声タスクではGemini-3.1 Proを上回り、包括的な音声・視覚理解ではそれに匹敵する成績を収めています。"