ProGuard: 主动式AI安全

发布:2025年12月29日 16:13
1分で読める
ArXiv

分析

本文介绍了ProGuard,这是一种主动识别和描述生成模型中多模态安全风险的新方法。它通过使用强化学习和专门设计的数据集来检测超出分布(OOD)的安全问题,从而解决了被动安全方法的局限性。 专注于主动式审核和OOD风险检测是人工智能安全领域的重要贡献。

引用

ProGuard 提供了强大的主动审核能力,将 OOD 风险检测提高了 52.6%,OOD 风险描述提高了 64.8%。