ProGuard: 主动式AI安全

Paper#AI Safety, Multimodal Learning, Reinforcement Learning🔬 Research|分析: 2026年1月3日 18:39
发布: 2025年12月29日 16:13
1分で読める
ArXiv

分析

本文介绍了ProGuard,这是一种主动识别和描述生成模型中多模态安全风险的新方法。它通过使用强化学习和专门设计的数据集来检测超出分布(OOD)的安全问题,从而解决了被动安全方法的局限性。 专注于主动式审核和OOD风险检测是人工智能安全领域的重要贡献。
引用 / 来源
查看原文
"ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%."
A
ArXiv2025年12月29日 16:13
* 根据版权法第32条进行合法引用。