adversarial attacks

"为了实现更可靠的评估，我们提出了ReliableBench，这是一个行为基准，其判断结果更加一致，以及JudgeStressTest，这是一个旨在揭示判断失败的数据集。"

A

ArXiv NLP

* 根据版权法第32条进行合法引用。

永久链接 ArXiv NLP

革新GNN解释：基于攻击的反事实解释

r/deeplearning•2026年2月25日 15:32•research▸

research #gnn 📝 Blog|分析: 2026年2月25日 15:33•

发布: 2026年2月25日 15:32

•

1分で読める

•r/deeplearning

分析

这项研究介绍了 ATEX-CF，这是一种增强图神经网络 (GNN) 解释可靠性的新方法。通过将攻击信号整合到反事实生成过程中，这项研究承诺提高解释的稳定性和与脆弱决策区域的对齐。这是使人工智能模型更透明和值得信赖的重要进步。

要点与引用▶

引用 / 来源

"在这项工作中，我们探讨了是否可以利用攻击信号来提高反事实解释的可靠性。"

R

r/deeplearning

* 根据版权法第32条进行合法引用。

永久链接 r/deeplearning

AI 行业内部人士发起数据投毒行动：对 LLM 的威胁

Hacker News•2026年1月11日 17:05•safety▸

safety #llm 👥 Community|分析: 2026年1月11日 19:00•

发布: 2026年1月11日 17:05

•

1分で読める

•Hacker News

分析

专门用于数据投毒的网站的推出，代表了对大型语言模型 (LLM) 的完整性和可靠性的严重威胁。这突显了人工智能系统在对抗性攻击面前的脆弱性，以及在 LLM 的整个生命周期（从训练到部署）中实施强大的数据验证和安全措施的重要性。

要点与引用▶

引用 / 来源

"A small number of samples can poison LLMs of any size."

H

* 根据版权法第32条进行合法引用。

数据投毒攻击：CIFAR-10上标签翻转的实践指南

MarkTechPost•2026年1月11日 15:47•safety▸

safety #data poisoning 📝 Blog|分析: 2026年1月11日 18:35•

发布: 2026年1月11日 15:47

•

1分で読める

•MarkTechPost

分析

本文重点介绍了深度学习模型中的一个关键漏洞：数据投毒。在CIFAR-10上演示这种攻击，有助于人们切实了解恶意行为者如何操纵训练数据以降低模型性能或引入偏见。理解和缓解此类攻击对于构建强大而值得信赖的AI系统至关重要。

要点与引用▶

引用 / 来源

"By selectively flipping a fraction of samples from..."

M

MarkTechPost

* 根据版权法第32条进行合法引用。

永久链接 MarkTechPost

基于LLM的针对安卓恶意软件检测器的特征级对抗攻击

ArXiv•2025年12月24日 19:56•Research▸

Research #adversarial attacks 🔬 Research|分析: 2026年1月10日 07:31•

发布: 2025年12月24日 19:56

•

1分で読める

•ArXiv

分析

这项研究探讨了安卓恶意软件检测器对大型语言模型（LLM）生成的对抗性攻击的脆弱性。这项研究强调了一个令人担忧的趋势，即利用复杂的 AI 模型来破坏现有系统的安全性。

要点与引用▶

引用 / 来源

"The research focuses on LLM-driven feature-level adversarial attacks."

A

* 根据版权法第32条进行合法引用。

提升对抗鲁棒性：高效评估与增强

ArXiv•2025年12月24日 02:33•Research▸

Research #Robustness 🔬 Research|分析: 2026年1月10日 07:50•

发布: 2025年12月24日 02:33

•

1分で読める

•ArXiv

分析

这篇ArXiv论文解决了深度学习中的一个关键问题：对抗鲁棒性。重点关注时间效率的评估和增强，表明了一种提高深度神经网络安全性和可靠性的实用方法。

要点与引用▶

引用 / 来源

"The paper focuses on time-efficient evaluation and enhancement."

A

* 根据版权法第32条进行合法引用。

针对对抗攻击的神经网络鲁棒性认证

ArXiv•2025年12月24日 00:49•Research▸

Research #Robustness 🔬 Research|分析: 2026年1月10日 07:51•

发布: 2025年12月24日 00:49

•

1分で読める

•ArXiv

分析

这篇 ArXiv 文章很可能展示了关于验证神经网络对对抗性样本的抵抗力的新研究。重点可能在于提供网络鲁棒性的正式保证的方法，这是值得信赖的 AI 的一个关键领域。

要点与引用▶

引用 / 来源

"The article's context indicates it's a research paper from ArXiv, implying a focus on novel findings."

A

* 根据版权法第32条进行合法引用。

针对基于射频的无人机探测器的真实世界对抗攻击

ArXiv•2025年12月23日 19:19•Safety▸

Safety #Drone Security 🔬 Research|分析: 2026年1月10日 07:56•

发布: 2025年12月23日 19:19

•

1分で読める

•ArXiv

分析

这篇 ArXiv 论文强调了基于射频的无人机检测系统中的一个重大漏洞，表明恶意行为者可能利用这些系统。这项研究强调了在关键基础设施应用中，对强大防御和持续改进人工智能安全性的需求。

要点与引用▶

引用 / 来源

"The paper focuses on adversarial attacks against RF-based drone detectors."

A

* 根据版权法第32条进行合法引用。

专业LLM应用中的对抗性漏洞：简历筛选安全风险

ArXiv•2025年12月23日 08:42•Research▸

Research #LLM Security 🔬 Research|分析: 2026年1月10日 08:12•

发布: 2025年12月23日 08:42

•

1分で読める

•ArXiv

分析

这项来自ArXiv的研究强调了专业大型语言模型 (LLM) 应用中的关键安全漏洞，并以简历筛选为例进行探讨。这是一个关键的研究领域，因为它揭示了对抗性攻击在现实世界场景中如何轻易绕过人工智能驱动的系统。

要点与引用▶

引用 / 来源

"The article uses resume screening as a case study for analyzing adversarial vulnerabilities."

A

* 根据版权法第32条进行合法引用。

用于检测分布外样本、对抗攻击和分布内错误分类的多层置信度评分

ArXiv•2025年12月22日 15:25•Research▸

Research #Robustness 🔬 Research|分析: 2026年1月10日 08:33•

发布: 2025年12月22日 15:25

•

1分で読める

•ArXiv

分析

这篇研究论文介绍了一种增强人工智能系统可靠性的新方法。提出的多层置信度评分方法为检测和减轻人工智能模型中的漏洞提供了潜在的改进。

要点与引用▶

引用 / 来源

"The paper focuses on multi-layer confidence scoring for identifying out-of-distribution samples, adversarial attacks, and in-distribution misclassifications."

A

* 根据版权法第32条进行合法引用。

对抗鲁棒在线有害内容检测：计算设计科学方法

ArXiv•2025年12月19日 09:08•Safety▸

Safety #Content Detection 🔬 Research|分析: 2026年1月10日 09:41•

发布: 2025年12月19日 09:08

•

1分で読める

•ArXiv

分析

这项研究侧重于检测有害在线内容的关键挑战，旨在防御对抗性攻击。这种计算设计科学方法表明了一种结构化的方法，用于在这个领域开发和评估解决方案。

要点与引用▶

引用 / 来源

"The research is published on ArXiv."

A

* 根据版权法第32条进行合法引用。

生物安全意识的AI：审计基于ESM的变体预测器，应对软提示攻击

ArXiv•2025年12月19日 00:51•Safety▸

Safety #Biosecurity 🔬 Research|分析: 2026年1月10日 09:48•

发布: 2025年12月19日 00:51

•

1分で読める

•ArXiv

分析

这项研究解决了 AI 驱动的蛋白质变体预测中的一个关键漏洞，重点关注这些模型抵御对抗性攻击的安全性。该研究侧重于生物系统背景下的审计和智能风险管理，具有高度相关性。

要点与引用▶

引用 / 来源

"The research focuses on auditing soft prompt attacks against ESM-based variant predictors."

A

* 根据版权法第32条进行合法引用。

开源测试平台评估 VR 对抗鲁棒性，针对晕动症检测与缓解

ArXiv•2025年12月18日 19:45•Research▸

Research #VR 🔬 Research|分析: 2026年1月10日 09:51•

发布: 2025年12月18日 19:45

•

1分で読める

•ArXiv

分析

这项研究介绍了一个开源工具，用于评估 VR 系统在针对旨在诱发晕动症的对抗攻击方面的鲁棒性。对对抗鲁棒性的关注对于确保 VR 应用的安全性和可靠性至关重要。

要点与引用▶

引用 / 来源

"An open-source testbed is provided for evaluating adversarial robustness."

A

* 根据版权法第32条进行合法引用。

ArcGen: 针对多样化架构的神经后门检测技术

ArXiv•2025年12月17日 06:42•Research▸

Research #Backdoor Detection 🔬 Research|分析: 2026年1月10日 10:31•

发布: 2025年12月17日 06:42

•

1分で読める

•ArXiv

分析

ArcGen 论文通过提供通用的后门检测方法，对人工智能安全领域做出了重大贡献。其对多样化架构的关注，表明了向更强大、更普遍适用的对抗攻击防御机制迈进。

要点与引用▶

引用 / 来源

"The research focuses on generalizing neural backdoor detection."

A

* 根据版权法第32条进行合法引用。

针对恶意图像编辑的新防御策略浮现

ArXiv•2025年12月16日 12:10•Research▸

Research #Image Security 🔬 Research|分析: 2026年1月10日 10:47•

发布: 2025年12月16日 12:10

•

1分で読める

•ArXiv

分析

这篇 ArXiv 论文针对 AI 时代一个关键且日益增长的威胁：图像操纵。这项工作很可能探索了识别和减轻对抗性编辑影响的方法，从而推进了人工智能安全领域的发展。

要点与引用▶

引用 / 来源

"The paper is available on ArXiv."

A

* 根据版权法第32条进行合法引用。

人工智能中的叠加：压缩与对抗性漏洞

ArXiv•2025年12月15日 17:25•Research▸

Research #AI Vulnerability 🔬 Research|分析: 2026年1月10日 11:04•

发布: 2025年12月15日 17:25

•

1分で読める

•ArXiv

分析

这篇ArXiv论文探讨了人工智能模型中的叠加、有损压缩技术以及它们对对抗性攻击的易感性之间的有趣联系。这项研究可能为神经网络的内部运作以及它们的漏洞如何产生提供了宝贵的见解。

要点与引用▶

引用 / 来源

"The paper examines superposition, sparse autoencoders, and adversarial vulnerabilities."

A

* 根据版权法第32条进行合法引用。

针对基于机器学习的IDS的黑盒攻击的鲁棒AI防御

ArXiv•2025年12月15日 16:29•Research▸

Research #IDS 🔬 Research|分析: 2026年1月10日 11:05•

发布: 2025年12月15日 16:29

•

1分で読める

•ArXiv

分析

该研究重点是提高基于机器学习 (ML) 的入侵检测系统 (IDS) 针对对抗性攻击的弹性。这是一个关键领域，因为对抗性攻击可能会损害关键基础设施的安全性。

要点与引用▶

引用 / 来源

"The research is published on ArXiv."

A

* 根据版权法第32条进行合法引用。

金融机器学习中的对抗鲁棒性：挑战与影响

ArXiv•2025年12月14日 20:16•Research▸

Research #Financial AI 🔬 Research|分析: 2026年1月10日 11:20•

发布: 2025年12月14日 20:16

•

1分で読める

•ArXiv

分析

这篇 ArXiv 论文研究了金融领域机器学习模型面临的对抗性攻击的关键问题，探讨了防御措施、经济后果和治理考量。这项研究强调了金融人工智能的脆弱性，以及确保系统可靠性和公平性的强大解决方案的必要性。

要点与引用▶

引用 / 来源

"The paper investigates defenses, economic impact, and governance evidence related to adversarial robustness in financial machine learning."

A

* 根据版权法第32条进行合法引用。

基于深度学习的无线电频率指纹识别的对抗攻击

ArXiv•2025年12月12日 19:33•Research▸

Research #Security 🔬 Research|分析: 2026年1月10日 11:39•

发布: 2025年12月12日 19:33

•

1分で読める

•ArXiv

分析

来自ArXiv的这项研究考察了用于射频指纹识别的深度学习模型对对抗攻击的敏感性。研究结果强调了依赖这些模型进行身份验证和安全的无线通信系统中的潜在安全漏洞。

要点与引用▶

引用 / 来源

"The research focuses on adversarial attacks against deep learning-based radio frequency fingerprint identification."

A

* 根据版权法第32条进行合法引用。

基于Frank-Wolfe方法的白盒对抗攻击实证评估

ArXiv•2025年12月11日 18:58•Research▸

Research #Adversarial Attacks 🔬 Research|分析: 2026年1月10日 11:55•

发布: 2025年12月11日 18:58

•

1分で読める

•ArXiv

分析

这项研究评估了Frank-Wolfe方法在白盒对抗攻击中的有效性。研究结果可能有助于更好地理解机器学习模型在对抗样本下的鲁棒性和脆弱性。

要点与引用▶

引用 / 来源

"The paper focuses on evaluating Frank-Wolfe methods."

A

* 根据版权法第32条进行合法引用。

解读扩散模型图像保护方法中的结构化扰动

ArXiv•2025年12月9日 07:55•Research▸

Research #Diffusion Models 🔬 Research|分析: 2026年1月10日 12:38•

发布: 2025年12月9日 07:55

•

1分で読める

•ArXiv

分析

这项研究侧重于扩散模型中的图像保护这一关键方面，这是人工智能领域一个快速发展的领域。了解结构化扰动如何影响图像完整性对于稳健和安全的AI系统至关重要。

要点与引用▶

引用 / 来源

"The article's focus is on image protection methods for diffusion models."

A

* 根据版权法第32条进行合法引用。

大规模对抗攻击，在尖端AI模型上模拟TEMPEST

ArXiv•2025年12月8日 00:30•Safety▸

Safety #LLM Security 🔬 Research|分析: 2026年1月10日 12:51•

发布: 2025年12月8日 00:30

•

1分で読める

•ArXiv

分析

这项研究调查了大型语言模型对对抗性攻击的脆弱性，特别是那些模仿TEMPEST的攻击。它突出了与部署前沿人工智能模型相关的潜在安全风险。

要点与引用▶

引用 / 来源

"The research focuses on multi-turn adversarial attacks."

A

* 根据版权法第32条进行合法引用。

医疗图像漏洞揭示视觉语言AI的弱点

ArXiv•2025年12月3日 20:10•Research▸

Research #vision-language models 🔬 Research|分析: 2026年1月10日 13:17•

发布: 2025年12月3日 20:10

•

1分で読める

•ArXiv

分析

这篇ArXiv文章突出了视觉语言模型在处理医疗图像时存在的重大漏洞。研究结果表明，这些模型需要提高稳健性，尤其是在安全关键型应用中。

要点与引用▶

引用 / 来源

"The study reveals critical weaknesses of Vision-Language Models."

A

* 根据版权法第32条进行合法引用。

大型语言模型实现少样本类增量学习中的自动攻击发现

ArXiv•2025年12月3日 15:34•Research▸

Research #LLM, Security 🔬 Research|分析: 2026年1月10日 13:18•

发布: 2025年12月3日 15:34

•

1分で読める

•ArXiv

分析

这项研究探索了大型语言模型（LLM）在新应用中的应用，以增强少样本类增量学习的鲁棒性。使用LLM进行自动攻击发现是朝着更安全和更具适应性的AI系统迈出的有希望的一步。

要点与引用▶

引用 / 来源

"The research focuses on automatic attack discovery."

A

* 根据版权法第32条进行合法引用。

大型语言模型能被“洗脑”吗？

Hacker News•2023年8月1日 00:28•Safety▸

Safety #LLM 👥 Community|分析: 2026年1月10日 16:04•

发布: 2023年8月1日 00:28

•

1分で読める

•Hacker News

分析

文章用“洗脑”来形容，具有煽动性，其目的可能更多是为了吸引点击量，而非提供细致的理解。研究LLM对对抗性攻击和恶意影响的脆弱性，对于负责任的AI发展至关重要。

要点与引用▶

引用 / 来源

"The context provided is very limited, so a key fact cannot be pulled."

H

* 根据版权法第32条进行合法引用。

对抗性攻击：神经网络中的漏洞

Hacker News•2021年8月6日 11:05•Research▸

Research #Adversarial 👥 Community|分析: 2026年1月10日 16:32•

发布: 2021年8月6日 11:05

•

1分で読める

•Hacker News

分析

这篇文章可能讨论了对抗性攻击，即精心设计的输入，旨在误导神经网络。了解这些漏洞对于开发强大而安全的AI系统至关重要。

要点与引用▶

引用 / 来源

"The article is likely about ways to 'fool' neural networks."

H

* 根据版权法第32条进行合法引用。

神经网络黑客攻击简要介绍

Hacker News•2019年11月17日 04:03•Safety▸

Safety #Neural Networks 👥 Community|分析: 2026年1月10日 16:45•

发布: 2019年11月17日 04:03

•

1分で読める

•Hacker News

分析

本文简要介绍了应用于神经网络的黑客技术，这是理解人工智能漏洞的关键领域。然而，由于缺乏更多细节，它更多地充当了一个介绍而非全面的分析。

要点与引用▶

引用 / 来源

"The article is a short introduction, implying a high-level overview."

H

* 根据版权法第32条进行合法引用。