LLM 在检测多重代码漏洞方面面临挑战Paper#llm🔬 Research|分析: 2026年1月3日 23:57•发布: 2025年12月26日 05:43•1分で読める•ArXiv分析本文通过超越单一漏洞检测,解决了LLM安全研究中的一个关键空白。它突出了当前LLM在处理现实世界代码复杂性方面的局限性,在现实世界中,多个漏洞经常同时出现。引入多漏洞基准测试和对最先进LLM的评估,为它们的性能和失效模式提供了宝贵的见解,特别是漏洞密度和特定语言挑战的影响。要点•LLM的漏洞检测性能随着漏洞密度的增加而显着下降。•不同的编程语言对LLM表现出不同的失效模式。•当前的LLM难以准确识别复杂代码中的多个漏洞。•本文引入了一个新的多漏洞检测基准。引用 / 来源查看原文"Performance drops by up to 40% in high-density settings, and Python and JavaScript show distinct failure modes, with models exhibiting severe "under-counting"."AArXiv2025年12月26日 05:43* 根据版权法第32条进行合法引用。较旧CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics较新PDx -- Adaptive Credit Risk Forecasting Model in Digital Lending using Machine Learning Operations相关分析Paper基于选择策略的协调人形机器人操作2026年1月3日 06:10Paper从未对齐图像即时进行3D场景编辑2026年1月3日 06:10Paper用于未来预测的LLM预测2026年1月3日 06:10来源: ArXiv