人工智能安全突破:LLM 展示近乎零有害说服!ethics#llm📝 Blog|分析: 2026年2月11日 16:02•发布: 2026年2月11日 15:58•1分で読める•r/MachineLearning分析人工智能安全领域的激动人心的消息! 新研究表明,GPT-5.1 和 Claude Opus 4.5 等尖端生成式人工智能模型在有害说服尝试方面实现了近乎零的依从性。 这展示了在大语言模型领域实现强大保护措施和负责任发展的潜力。要点•GPT-5.1 和 Claude Opus 4.5 成功抵抗有害说服尝试。•Google 的 Gemini 3 Pro 与之前的版本相比,安全性有所下降。•开源的“尝试说服评估”(APE)可用于测试安全机制。引用 / 来源查看原文"在技术上可以实现近乎零有害说服合规。 GPT 和 Claude 证明了这一点。"Rr/MachineLearning2026年2月11日 15:58* 根据版权法第32条进行合法引用。较旧LLM Aces Patent Algorithm Implementation: A Triumph for AI Code Generation!较新User Experiences a Shift in Generative AI Model Behavior相关分析ethics人工智能安全:抵御供应链漏洞,守护未来2026年4月2日 04:00ethics人工智能应用:弥合性别差距,共创美好未来2026年4月1日 20:19ethics人工智能对心理健康的积极影响:支持的新时代2026年4月1日 16:49来源: r/MachineLearning