分析
阿里巴巴发布了基于Qwen3.5 LLM的新智能体 Copaw-9B。 这项令人兴奋的进展有望突破生成式人工智能的界限, 可能会带来与更强大的模型相媲美的令人印象深刻的性能。
关于benchmark的新闻、研究和更新。由AI引擎自动整理。
"尽管研究人员和行业已经开始通过超越静态测试转向更动态的评估方法来改进基准测试,但这些创新只解决了部分问题。"
"最好的开源模型是 kimi-k2.5, Qwen 3.5 397B-A17B 和 Qwen 3.5 27B (!)"
"我建立了一个基准,用于生成对抗性物理问题,并用符号数学(sympy + pint)对它们进行评分。 没有LLM作为法官,没有感觉,只有数学。"
"在较长上下文中,差距会扩大。在65K时,27B dense 在 M3 Max 上降至 6.8 tg tok/s,而在 M5 Max 上降至 19.6 (2.9倍)。"
"通过弥合静态图像感知和交互式临床工作流程之间的差距,MEDOPENCLAW 和 MEDFLOWBENCH 为开发可审计的、全研究的医学影像智能体建立了可复现的基础。"