ProGuard: 主动式AI安全

发布: 2025年12月29日 16:13

•

1分で読める

分析

本文介绍了ProGuard，这是一种主动识别和描述生成模型中多模态安全风险的新方法。它通过使用强化学习和专门设计的数据集来检测超出分布（OOD）的安全问题，从而解决了被动安全方法的局限性。专注于主动式审核和OOD风险检测是人工智能安全领域的重要贡献。

引用 / 来源

"ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%."

ArXiv2025年12月29日 16:13

* 根据版权法第32条进行合法引用。

Model-based Development for Autonomous Driving Software Considering Parallelization

Instruction-Following Evaluation of Large Vision-Language Models