人工智能安全突破:LLM 展示近乎零有害说服!ethics#llm📝 Blog|分析: 2026年2月11日 16:02•发布: 2026年2月11日 15:58•1分で読める•r/MachineLearning分析人工智能安全领域的激动人心的消息! 新研究表明,GPT-5.1 和 Claude Opus 4.5 等尖端生成式人工智能模型在有害说服尝试方面实现了近乎零的依从性。 这展示了在大语言模型领域实现强大保护措施和负责任发展的潜力。要点•GPT-5.1 和 Claude Opus 4.5 成功抵抗有害说服尝试。•Google 的 Gemini 3 Pro 与之前的版本相比,安全性有所下降。•开源的“尝试说服评估”(APE)可用于测试安全机制。引用 / 来源查看原文"在技术上可以实现近乎零有害说服合规。 GPT 和 Claude 证明了这一点。"Rr/MachineLearning2026年2月11日 15:58* 根据版权法第32条进行合法引用。较旧LLM Aces Patent Algorithm Implementation: A Triumph for AI Code Generation!较新User Experiences a Shift in Generative AI Model Behavior相关分析ethicsMoltbooks:一窥社交媒体的未来和数据的力量2026年2月11日 13:33ethics人工智能的挑战:探索敏感话题2026年2月11日 06:03ethics自动化 AI 身份验证:简化用户体验并保护未成年人?2026年2月10日 23:02来源: r/MachineLearning