分析
Alibabaは、Qwen3.5 LLMを基盤とした新しいAgent、Copaw-9Bをリリースしました。このエキサイティングな開発は、生成AIの可能性を広げ、より強力なモデルに匹敵する印象的なパフォーマンスを提供する可能性があります。
benchmarkに関するニュース、研究、アップデートをAIが自動収集しています。
"研究者や業界は、静的テストを超えてより動的な評価方法に移行することでベンチマーキングを改善し始めていますが、これらの革新は問題の一部しか解決していません。"
"最高のオープンモデルは、kimi-k2.5、Qwen 3.5 397B-A17B、Qwen 3.5 27B (!) です。"
"進歩を促進するベンチマーキングの重要な役割にもかかわらず、評価は、これまでのところ、コアモデリング研究に比べてあまり注目されていません。"
"9行のシードと5ラウンドの対照フィードバックを持つLLMは、96%のベンチマークでOptunaを上回る。"
"私は、敵対的な物理学の質問を生成し、記号数学(sympy + pint)で採点するベンチマークを構築しました。 LLMをジャッジとして使用せず、雰囲気ではなく、ただの数学です。"
"「これで、入力と出力は、ほぼ人間と全く同じということになります。明らかに、もっと良い結果が出るでしょう?」"
"長いコンテキストでは差が広がります。65Kでは、27B denseがM3 Maxで6.8 tg tok/sに対し、M5 Maxでは19.6 (2.9倍)に低下します。"
"静止画像知覚とインタラクティブな臨床ワークフローの間のギャップを埋めることにより、MEDOPENCLAWとMEDFLOWBENCHは、監査可能なフルスタディ医療画像エージェントを開発するための再現可能な基盤を確立します。"
"我々の分析は、ウクライナ語と英語の間で、Visual-WSDタスクにおける大きなパフォーマンスのギャップを明らかにしました。"