揭露恶意 AI 代码:基于执行轨迹的可证明方法ArXiv•2025年12月15日 19:05•Safety▸▾Safety#Code AI🔬 Research|分析: 2026年1月10日 11:00•发布: 2025年12月15日 19:05•1分で読める•ArXiv分析这份来自 ArXiv 的研究提出了一种通过分析代码世界模型的执行轨迹来检测恶意行为的方法。 重点关注可证明的揭露,是对 AI 安全性的重大贡献。要点与引用▶▼•侧重于检测基于代码的 AI 模型中的恶意行为。•使用执行轨迹来分析和识别有害行为。•提供一种“可证明”的方法来揭露恶意活动,从而增强可靠性。引用 / 来源查看原文"The research focuses on provably unmasking malicious behavior."AArXiv* 根据版权法第32条进行合法引用。永久链接ArXiv