分析
DeepSeek V4のアーキテクチャ、特にEngramメモリシステムは、大規模言語モデル (LLM) 技術における画期的な進歩を示唆しています。 VRAM消費の大幅な削減と、広範なコンテキストウィンドウ全体での推論の安定性の向上の可能性は、非常にエキサイティングです。 リークされたベンチマークが正確であれば、DeepSeek V4は業界標準を再定義する可能性があります。
benchmarksに関するニュース、研究、アップデートをAIが自動収集しています。
"彼らはClaudeに戻ります。これはすでに3回か4回起きており、そのパターンは十分に一貫しているので、説明に値します。"
"「Gemini 3.1 Proは現在、APEX-Agentsリーダーボードのトップにいます」とFoody氏は述べ、そのモデルの印象的な結果は「エージェントが実際の知識作業でいかに急速に改善されているか」を示していると付け加えました。"
"Gemini 3.1 ProはARC-AGI-2スコアで77.1%を達成し、GPT-5.2を約24%上回りました。"
"広範な評価により、UI-Venus-1.5は、ScreenSpot-Pro(69.6%)、VenusBench-GD(75.0%)、AndroidWorld(77.6%)などのベンチマークで新たな最先端のパフォーマンスを確立し、以前の強力なベースラインを大幅に上回ることが実証されています。"
"専門性の高い科学向けの高度なオープンソースマルチモーダルLLMであるIntern-S1-Proは、中国の上海AIラボによって2月4日にリリースされました。"
"My question: what concrete criteria or benchmarks would allow us to choose between: (1) a multimodal LLM + post-training + tool-use will eventually cover the essentials vs (2) a non-generative world model architecture is needed to take a leap (prediction, constraints, physical interaction)"
"The study highlights the importance of creating robust metrics, paving the way for more accurate evaluations of AI's burgeoning abilities."
"The new Ryzen AI Max+ 392 has popped up on Geekbench with a single-core score of 2,917 points and a multi-core score of 18,071 points, posting impressive results across the board that match high-end desktop SKUs."
"A shift from static benchmarks to dynamic evaluations is a key requirement of modern AI systems."
"Marktechpost has released AI2025Dev, its 2025 analytics platform (available to AI Devs and Researchers without any signup or login) designed to convert the year’s AI activity into a queryable dataset spanning model releases, openness, training scale, benchmark performance, and ecosystem participants."
"Current audio evaluation faces three major challenges: (1) audio evaluation lacks a unified framework, with datasets and code scattered across various sources, hindering fair and efficient cross-model comparison"