分析
Alibaba QwenチームによるQwen 3.5シリーズは、オープンウェイトモデルの世界において目覚ましい進歩を遂げました。単に大規模なモデルというだけでなく、Qwen 3.5はエキサイティングなアーキテクチャの転換を示し、生成AIの可能性を押し広げています!
moeに関するニュース、研究、アップデートをAIが自動収集しています。
"新しいカスタムTritonカーネルと数学的最適化により(精度を損なうことなく)、~12倍高速なMixture of Experts (MoE)トレーニング、>35%のVRAM削減、および~6倍長いコンテキストを実現できることに興奮しています。"
"一方、Q3CNはinstruct MoEモデルであり、内部的な思考ループがなく、トークン生成が比較的速いです。"
"In the past year, leading models from the Chinese community had almost unanimously moved toward Mixture-of-Experts (MoE) architectures..."
"Experimental results across AHD tasks with varying objectives and problem scales show that E2OC consistently outperforms state-of-the-art AHD and other multi-heuristic co-design frameworks, demonstrating strong generalization and sustained optimization capability."
"Hey everyone, I made uncensored versions of the new GLM 4.7 Flash from Z.ai."
"Zhipu AI describes GLM-4.7-Flash as a 30B-A3B MoE model and presents it as the strongest model in the 30B class, designed for lightweight deployment..."
"due to being a hybrid transformer+mamba model, it stays fast as context fills"