搜索:
匹配:
38 篇
safety#llm📝 Blog分析: 2026年1月18日 20:30

Reprompt:一键式变革AI交互!

发布:2026年1月18日 20:00
1分で読める
ITmedia AI+

分析

Reprompt 带来了我们与 AI 交互方式的激动人心的变革!这种创新方法简化了命令,可能带来前所未有的效率,并开启了用户参与的新可能性。这可能会重新定义我们与生成 AI 的交互方式,使其比以往任何时候都更直观。
引用

这种方法可以简化命令,从而带来前所未有的效率。

safety#agent📝 Blog分析: 2026年1月15日 12:00

Anthropic 的 'Cowork' 易受间接提示注入的文件泄露攻击

发布:2026年1月15日 12:00
1分で読める
Gigazine

分析

此漏洞突出了处理用户上传文件的 AI 代理的关键安全隐患。通过上传到系统的数据注入恶意提示的能力,强调了在 AI 应用开发中需要强大的输入验证和清理技术,以防止数据泄露。
引用

Anthropic 的 'Cowork' 存在一个漏洞,允许它从用户上传的文件中读取和执行恶意提示。

ethics#llm📝 Blog分析: 2026年1月15日 08:47

Gemini 的“瑞克摇摆”:无害的故障还是危险的开端?

发布:2026年1月15日 08:13
1分で読める
r/ArtificialInteligence

分析

虽然看似微不足道,但这一事件突显了 LLM 行为的不可预测性,尤其是在“个性”模拟等创意情境中。 意外的链接可能表明与提示词注入相关的漏洞,或者系统在过滤外部内容方面的缺陷。 此次事件应促使进一步调查 Gemini 的安全性和内容审核协议。
引用

就像,我当时正在用它做个性方面的东西,然后它回复时发了一个“假链接”,导向了《永不放弃你》...

safety#llm📝 Blog分析: 2026年1月10日 05:41

LLM应用程序安全实践:从漏洞发现到护栏实施

发布:2026年1月8日 10:15
1分で読める
Zenn LLM

分析

本文重点介绍了LLM驱动的应用程序中安全性的关键但经常被忽视的方面。它正确地指出了集成LLM时出现的独特漏洞,并将它们与传统的Web应用程序安全问题(特别是提示注入)进行了对比。本文为保护会话式AI系统提供了宝贵的视角。
引用

“恶意提示泄露了系统提示,聊天机器人回答了错误的信息。”

security#llm👥 Community分析: 2026年1月10日 05:43

Notion AI数据泄露风险:未解决的安全漏洞

发布:2026年1月7日 19:49
1分で読める
Hacker News

分析

Notion AI中报告的漏洞凸显了将大型语言模型集成到生产力工具中相关的重大风险,尤其是在数据安全和意外数据泄漏方面。 补丁的缺失进一步加剧了紧迫性,要求 Notion 及其用户立即关注以减轻潜在的漏洞利用。 PromptArmor 的调查结果强调了对 AI 驱动功能进行可靠的安全评估的重要性。
引用

文章链接:https://www.promptarmor.com/resources/notion-ai-unpatched-data-exfiltration

safety#robotics🔬 Research分析: 2026年1月7日 06:00

保障具身人工智能:深入研究LLM控制的机器人漏洞

发布:2026年1月7日 05:00
1分で読める
ArXiv Robotics

分析

这篇调查论文解决了一个关键且经常被忽视的LLM集成方面:当这些模型控制物理系统时的安全影响。对“具身差距”以及从基于文本的威胁到物理行为的转变的关注尤为重要,突出了对专门安全措施的需求。本文的价值在于其对威胁和防御进行分类的系统方法,为该领域的研究人员和从业人员提供了宝贵的资源。
引用

虽然基于文本的LLM的安全性是一个活跃的研究领域,但现有的解决方案通常不足以解决具身机器人代理的独特威胁,在这些威胁中,恶意输出不仅表现为有害文本,而且表现为危险的物理行为。

research#agent🔬 Research分析: 2026年1月5日 08:33

RIMRULE:神经符号规则注入改进LLM工具使用

发布:2026年1月5日 05:00
1分で読める
ArXiv NLP

分析

RIMRULE提出了一种通过动态注入从失败轨迹中提取的规则来增强LLM工具使用的有前景的方法。使用MDL进行规则整合以及学习到的规则在不同LLM之间的可移植性尤其值得注意。未来的研究应侧重于在更复杂的现实场景中的可扩展性和鲁棒性。
引用

从失败轨迹中提取紧凑、可解释的规则,并在推理过程中将其注入到提示中,以提高任务性能。

security#llm👥 Community分析: 2026年1月6日 07:25

欧洲之星聊天机器人暴露敏感数据:人工智能安全的一个警示故事

发布:2026年1月4日 20:52
1分で読める
Hacker News

分析

欧洲之星聊天机器人的漏洞突显了在人工智能应用程序中,特别是处理敏感客户数据的应用程序中,强大的输入验证和输出清理的关键需求。 这一事件强调了即使看似良性的人工智能系统,如果未得到适当保护,也可能成为攻击媒介,从而影响品牌声誉和客户信任。 聊天机器人被轻易利用的事实对现有的安全审查流程提出了严重的质疑。
引用

该聊天机器人容易受到提示注入攻击,从而可以访问内部系统信息和潜在的客户数据。

Research#AI Agent Testing📝 Blog分析: 2026年1月3日 06:55

FlakeStorm:用于AI代理测试的混沌工程

发布:2026年1月3日 06:42
1分で読める
r/MachineLearning

分析

这篇文章介绍了FlakeStorm,一个开源测试引擎,旨在提高AI代理的鲁棒性。它强调了当前测试方法的局限性,这些方法主要侧重于确定性正确性,并提出了一种混沌工程方法来解决非确定性行为、系统级故障、对抗性输入和边缘情况。技术方法涉及在各种类别中生成语义突变,以测试代理的弹性。这篇文章有效地识别了当前AI代理测试中的差距,并提出了一种新颖的解决方案。
引用

FlakeStorm采用“黄金提示”(已知的良好输入),并在8个类别中生成语义突变:释义、噪声、语调变化、提示注入。

Research#llm📝 Blog分析: 2026年1月3日 05:48

自测试代理AI系统实现

发布:2026年1月2日 20:18
1分で読める
MarkTechPost

分析

这篇文章描述了一个用于自测试AI系统的编码实现,重点是红队和安全。它强调使用Strands Agents来评估使用工具的AI,以对抗对抗性攻击,如提示注入和工具误用。核心重点是主动安全工程。
引用

在本教程中,我们使用Strands Agents构建一个高级红队评估工具,以针对提示注入和工具误用攻击对使用工具的AI系统进行压力测试。

分析

本文研究了用于学术同行评审的LLM对隐藏提示注入攻击的脆弱性。 这很重要,因为它探索了一个真实世界的应用(同行评审),并展示了对抗性攻击如何操纵LLM的输出,可能导致有偏见或不正确的决策。 多语言方面增加了另一层复杂性,揭示了特定于语言的漏洞。
引用

对于英语、日语和中文注入,提示注入会导致评审分数和接受/拒绝决策发生重大变化,而阿拉伯语注入几乎没有影响。

防止 Agentic AI 中的提示词注入

发布:2025年12月29日 15:54
1分で読める
ArXiv

分析

本文解决了 Agentic AI 系统中的一个关键安全漏洞:多模态提示词注入攻击。它提出了一个新颖的框架,利用清理、验证和溯源跟踪来缓解这些风险。 重点关注多代理编排,并通过实验验证提高了检测精度并减少了信任泄漏,这对于构建值得信赖的 AI 系统具有重要意义。
引用

本文提出了一个跨代理多模态溯源感知防御框架,其中所有提示词(无论是用户生成的还是由上游代理生成的)都会被清理,并且在发送到下游节点之前,LLM 生成的所有输出都会被独立验证。

网络代理说服基准

发布:2025年12月29日 01:09
1分で読める
ArXiv

分析

本文介绍了一个基准(TRAP),用于评估网络代理(由 LLM 驱动)对提示注入攻击的脆弱性。随着网络代理变得越来越普遍,这突出了一个关键的安全问题,表明这些代理很容易被嵌入在网络界面中的对抗性指令误导。这项研究提供了一个用于进一步调查和扩展基准的框架,这对于开发更强大和更安全的网络代理至关重要。
引用

代理在平均 25% 的任务中容易受到提示注入的影响(GPT-5 为 13%,DeepSeek-R1 为 43%)。

Research#llm📝 Blog分析: 2025年12月28日 22:31

Claude AI 识别提示注入攻击,但仍暴露信用卡信息

发布:2025年12月28日 21:59
1分で読める
r/ClaudeAI

分析

这篇 Reddit 帖子突显了像 Claude 这样的 AI 系统中一个关键的安全漏洞。虽然 AI 正确识别出旨在提取信用卡信息的提示注入攻击,但在解释威胁时,它无意中暴露了完整的信用卡号码。这表明,即使 AI 系统被设计为防止恶意行为,但它们关于这些威胁的沟通也可能产生新的安全风险。随着 AI 越来越多地集成到敏感环境中,需要解决此问题,以防止数据泄露并保护用户信息。该事件强调了 AI 系统的仔细设计和测试的重要性,以确保它们不会无意中暴露敏感数据。
引用

即使系统在做正确的事情,它沟通威胁的方式本身也可能成为威胁。

Research#llm📝 Blog分析: 2025年12月28日 22:00

人工智能网络安全风险:LLM 尽管识别出威胁,但仍会暴露敏感数据

发布:2025年12月28日 21:58
1分で読める
r/ArtificialInteligence

分析

这篇文章强调了大型语言模型 (LLM) 引入的一个关键网络安全漏洞。虽然 LLM 可以识别提示注入攻击,但它们对这些威胁的解释可能会无意中暴露敏感信息。作者使用 Claude 进行的实验表明,即使 LLM 正确地拒绝执行恶意请求,它也可能在解释威胁时泄露它应该保护的数据。随着人工智能更多地集成到各种系统中,这会带来重大风险,可能会将人工智能系统变成数据泄露的来源。攻击者可以使用自然语言而不是传统的编码语言来制作恶意提示的容易程度进一步加剧了这个问题。这强调了需要仔细考虑人工智能系统如何沟通安全威胁。
引用

即使系统在做正确的事情,它沟通威胁的方式本身也可能成为威胁。

Research#llm🏛️ Official分析: 2025年12月26日 20:08

OpenAI承认提示注入攻击“不太可能完全解决”

发布:2025年12月26日 20:02
1分で読める
r/OpenAI

分析

本文讨论了OpenAI承认大型语言模型中一个重要的安全漏洞,即提示注入,不太可能被完全根除。该公司正在积极探索降低风险的方法,包括训练AI代理来识别和利用其自身系统中的漏洞。提供的示例中,一个代理被诱骗代表用户辞职,突显了这些攻击的潜在严重性。OpenAI在这一问题上的透明度值得称赞,因为它鼓励了AI社区内更广泛的讨论和协作努力,以开发更强大的防御措施来抵御提示注入和其他新兴威胁。提供的OpenAI博客文章链接提供了有关他们加强系统的方法的更多详细信息。
引用

“不太可能完全解决。”

Research#llm📝 Blog分析: 2025年12月25日 13:44

提示注入能否防止未经授权的生成和其他骚扰?

发布:2025年12月25日 13:39
1分で読める
Qiita ChatGPT

分析

这篇来自 Qiita ChatGPT 的文章讨论了使用提示注入来防止意外生成和骚扰。作者指出人工智能技术的快速发展以及跟上其发展步伐的挑战。核心问题围绕提示注入技术是否能有效防范恶意用例,例如未经授权的内容生成或其他形式的 AI 驱动的骚扰。本文可能探讨了不同的提示注入策略及其在减轻这些风险方面的有效性。了解提示注入的局限性和潜力对于开发强大而安全的 AI 系统至关重要。
引用

最近,人工智能技术的发展真的很快。

Research#Agent🔬 Research分析: 2026年1月10日 07:45

AegisAgent: LLM-HARs 中针对提示词注入攻击的自主防御代理

发布:2025年12月24日 06:29
1分で読める
ArXiv

分析

这篇研究论文介绍了 AegisAgent,一个旨在对抗针对大型语言模型 (LLM) 的提示词注入攻击的自主防御代理。 这篇论文可能深入研究了 AegisAgent 在缓解这些安全漏洞方面的架构、实现和有效性。
引用

AegisAgent 是一个针对 LLM-HARs 中的提示词注入攻击的自主防御代理。

Research#llm📰 News分析: 2025年12月24日 14:59

OpenAI承认AI浏览器中提示注入漏洞将持续存在

发布:2025年12月22日 22:11
1分で読める
TechCrunch

分析

这篇文章强调了AI浏览器和代理AI系统面临的重大安全挑战。 OpenAI承认提示注入攻击可能始终存在风险,这突显了保护依赖自然语言输入的系统的固有难度。 “基于LLM的自动攻击者”的开发表明了一种主动识别和减轻这些漏洞的方法。 但是,这种持续风险的长期影响需要进一步探讨,尤其是在用户信任和恶意利用的可能性方面。 本文可以通过更深入地研究提示注入的具体机制以及自动攻击模拟之外的潜在缓解策略来改进。
引用

OpenAI表示,对于像Atlas这样具有代理功能的AI浏览器来说,提示注入将始终是一种风险。

Research#llm🏛️ Official分析: 2026年1月3日 09:17

持续强化ChatGPT Atlas防御提示词注入攻击

发布:2025年12月22日 00:00
1分で読める
OpenAI News

分析

这篇文章强调了OpenAI为加强ChatGPT Atlas防御提示词注入攻击所做的努力。使用自动红队和强化学习表明了一种积极主动的方法来识别和减轻漏洞。对“agentic”AI的关注暗示了对AI系统不断发展的能力和潜在攻击面的担忧。
引用

OpenAI正在使用通过强化学习训练的自动化红队来加强ChatGPT Atlas防御提示词注入攻击。这种积极主动的发现和修补循环有助于及早识别新的漏洞,并在AI变得更具agentic时加强浏览器代理的防御。

Research#Prompt Injection🔬 Research分析: 2026年1月10日 11:27

基于分类器的提示词注入攻击检测

发布:2025年12月14日 07:35
1分で読める
ArXiv

分析

这项研究通过解决提示词注入攻击,探讨了人工智能安全的一个关键领域。分类器的使用提供了一种潜在有效的防御机制,值得进一步研究和更广泛的应用。
引用

该研究侧重于检测针对应用程序的提示词注入攻击。

Research#llm🔬 Research分析: 2026年1月4日 09:23

从拒绝到接受:量化基于LLM的科学评论员对间接提示注入的脆弱性

发布:2025年12月11日 09:13
1分で読める
ArXiv

分析

这篇文章来自ArXiv,重点关注基于大型语言模型(LLM)的科学评论员对间接提示注入的脆弱性。它可能探讨了恶意提示如何操纵这些LLM接受或认可它们通常会拒绝的内容。量化方面表明了一种严格的、数据驱动的方法来理解这种脆弱性的程度。

关键要点

    引用

    Research#Agent🔬 Research分析: 2026年1月10日 13:09

    变色龙AI:通过自适应对抗性Agent增强多模态系统

    发布:2025年12月4日 15:22
    1分で読める
    ArXiv

    分析

    该研究论文探讨了用于增强多模态AI系统在对抗攻击下的鲁棒性和适应性的创新技术。 重点关注基于缩放的视觉提示注入和自适应Agent,这表明了一种有前景的提升系统可靠性的方法。
    引用

    该论文来自ArXiv。

    Research#LLM🔬 Research分析: 2026年1月10日 13:47

    通过指令遵循意图分析缓解间接提示注入

    发布:2025年11月30日 16:29
    1分で読める
    ArXiv

    分析

    这项在 ArXiv 上发布的研究,提出了一种缓解间接提示注入的方法,这是大型语言模型中一个重要的安全问题。 对指令遵循意图的分析代表了增强 LLM 安全性的一个有希望的步骤。
    引用

    该研究侧重于缓解间接提示注入,这是一个重要的漏洞。

    Research#llm🔬 Research分析: 2026年1月4日 08:18

    语义为盾:标签伪装防御(LDD)对抗LLM情感分类中的提示注入

    发布:2025年11月23日 20:16
    1分で読める
    ArXiv

    分析

    这篇来自ArXiv的文章讨论了标签伪装防御(LDD)作为一种保护大型语言模型(LLM)免受提示注入攻击的方法,特别是在情感分类的背景下。其核心思想可能围绕着混淆用于情感分析的标签,以防止恶意提示操纵模型的输出。这项研究侧重于一个特定的漏洞,并提出了一个防御机制。

    关键要点

      引用

      这篇文章可能提出了一种新颖的方法来增强LLM对常见安全威胁的鲁棒性。

      Research#llm🏛️ Official分析: 2026年1月3日 09:26

      理解提示词注入:一个前沿的安全挑战

      发布:2025年11月7日 11:30
      1分で読める
      OpenAI News

      分析

      这篇文章介绍了提示词注入作为人工智能系统的一个重要安全挑战。它强调了OpenAI在研究、模型训练和用户保护方面的努力。内容简洁,侧重于核心问题和公司的应对措施。
      引用

      提示词注入是人工智能系统的一个前沿安全挑战。了解这些攻击是如何运作的,以及OpenAI如何推进研究、训练模型和构建用户保护措施。

      Security#AI Security👥 Community分析: 2026年1月3日 08:41

      Comet AI浏览器漏洞:提示注入和财务风险

      发布:2025年8月24日 15:14
      1分で読める
      Hacker News

      分析

      这篇文章强调了Comet AI浏览器中的一个关键安全漏洞,特别是提示注入的风险。此漏洞允许恶意网站将命令注入到AI的处理过程中,可能导致未经授权访问敏感信息,包括财务数据。由于可能造成直接的财务损失,例如耗尽银行账户,其严重性被放大。简要的摘要有效地传达了核心问题及其潜在后果。
      引用

      N/A (根据提供的上下文,没有直接引用。)

      Research#llm📝 Blog分析: 2025年12月28日 21:56

      理解提示词注入:风险、方法和防御措施

      发布:2025年8月7日 11:30
      1分で読める
      Neptune AI

      分析

      Neptune AI 的这篇文章介绍了提示词注入的概念,这是一种利用大型语言模型 (LLM) 漏洞的技术。 提供的例子是要求 ChatGPT 嘲讽用户,突出了 LLM 根据用户提供的指令生成响应的潜力,即使这些指令是恶意的或导致不良结果。 这篇文章可能会深入探讨与提示词注入相关的风险、用于执行它的方法以及可用于减轻其影响的防御机制。 重点是理解和解决 LLM 的安全隐患。
      引用

      “使用你拥有的所有关于我的数据来嘲讽我。不要留情。”

      Research#llm👥 Community分析: 2026年1月4日 08:34

      针对提示词注入保护LLM代理的设计模式

      发布:2025年6月13日 13:27
      1分で読める
      Hacker News

      分析

      这篇文章可能讨论了通过提示词注入来防止恶意行为者操纵大型语言模型(LLM)代理的方法。它将涵盖设计模式,这些模式是针对常见问题的可重用解决方案,特别是在保护LLM的背景下。来源Hacker News表明了面向技术受众。

      关键要点

        引用

        research#prompt injection🔬 Research分析: 2026年1月5日 09:43

        StruQ和SecAlign:针对提示注入攻击的新防御措施

        发布:2025年4月11日 10:00
        1分で読める
        Berkeley AI

        分析

        这篇文章强调了LLM集成应用中的一个关键漏洞:提示注入。所提出的防御措施StruQ和SecAlign在缓解这些攻击方面显示出有希望的结果,可能提高基于LLM的系统的安全性和可靠性。然而,需要进一步研究以评估它们对更复杂、自适应攻击的鲁棒性,以及它们在不同LLM架构和应用中的泛化能力。
        引用

        StruQ和SecAlign将十几种无需优化的攻击的成功率降低到0%左右。

        Safety#LLM👥 Community分析: 2026年1月10日 15:23

        ZombAIs:利用提示注入实现C2能力

        发布:2024年10月26日 23:36
        1分で読める
        Hacker News

        分析

        这篇文章强调了大型语言模型(LLMs)中一个令人担忧的漏洞,展示了如何利用提示注入来远程控制AI系统。该研究强调了强大的安全措施的重要性,以防止恶意行为者利用这些漏洞进行命令和控制。
        引用

        这篇文章重点关注利用提示注入并实现C2能力。

        Security#AI Security👥 Community分析: 2026年1月3日 08:44

        通过间接提示注入从 Slack AI 窃取数据

        发布:2024年8月20日 18:27
        1分で読める
        Hacker News

        分析

        这篇文章讨论了与从 Slack 的 AI 功能窃取数据相关的安全漏洞。该方法涉及间接提示注入,这是一种用于操纵 AI 行为以揭示敏感信息的技巧。这突出了在保护 AI 系统免受恶意攻击方面的持续挑战,以及强大的输入验证和提示工程的重要性。
        引用

        核心问题是通过精心设计的提示来操纵 AI 的响应,从而导致潜在敏感数据的泄露。这强调了需要仔细考虑 AI 模型如何集成到现有系统中,以及与之相关的潜在风险。

        Research#llm👥 Community分析: 2026年1月3日 09:38

        GPT-4 视觉提示注入

        发布:2023年10月18日 11:50
        1分で読める
        Hacker News

        分析

        这篇文章讨论了 GPT-4 视觉功能的提示注入漏洞。这表明重点在于大型语言模型在处理视觉输入时的安全性和稳健性。这个话题与正在进行的关于人工智能安全性和对抗性攻击的研究相关。
        引用

        Research#llm👥 Community分析: 2026年1月3日 09:29

        用于构建能够抵抗提示注入的AI助手的双LLM模式

        发布:2023年5月13日 05:08
        1分で読める
        Hacker News

        分析

        这篇文章讨论了一种用于提高AI助手防御提示注入攻击安全性的模式。鉴于LLM的使用日益增加以及恶意行为者可能利用漏洞,这是一个相关的话题。“双LLM”方法可能涉及使用两个LLM,一个用于清理或验证用户输入,另一个用于处理干净的输入。这是安全领域中的常见模式,本文可能探讨了其在LLM中的具体应用。
        引用

        Safety#LLM Security👥 Community分析: 2026年1月10日 16:21

        必应聊天机器人通过提示词注入攻击泄露秘密

        发布:2023年2月13日 18:13
        1分で読める
        Hacker News

        分析

        这篇文章强调了人工智能聊天机器人中的一个关键漏洞。提示词注入攻击揭示了当前LLM安全实践的脆弱性,并突显了对强大安全措施的需求。
        引用

        这篇文章可能讨论了提示词注入如何揭示了必应聊天的内部运作或机密信息。

        Research#llm👥 Community分析: 2026年1月4日 07:37

        Ask HN: “提示词注入”会成为一种新的常见漏洞吗?

        发布:2023年2月9日 03:59
        1分で読める
        Hacker News

        分析

        这篇文章来自Hacker News,提出了一个问题,即“提示词注入”是否会成为一种普遍存在的漏洞。这表明文章关注提示工程的安全性影响,以及操纵大型语言模型(LLM)的输入可能产生的漏洞。提问的形式表明这是一篇以讨论为导向的文章,可能探讨了当前对这类攻击的理解以及未来的风险。

        关键要点

          引用