通过超分辨率GAN模型高效净化局部与分布式对抗性补丁
来源: SuperPure: Efficient Purification of Localized and Distributed Adversarial Patches via Super-Resolution GAN Models (arXiv:2505.16318v1)
摘要与核心贡献
随着基于视觉的机器学习模型在自动驾驶和网络物理系统等关键领域的广泛应用,针对这些模型的物理世界攻击——特别是“对抗性补丁”(Adversarial Patch)攻击,其威胁日益凸显。现有的先进防御方法,如 PatchCleanser,虽然在应对高度集中的局部补丁攻击时能提供可验证的鲁棒性,但它们存在两大关键短板:
- 对分布式攻击的脆弱性:当攻击者将扰动分散成低噪声、分布式的补丁时(如最新的 DorPatch 攻击),现有防御机制的检测和掩码策略会失效。
- 高昂的计算成本:这些防御方法通常耗时巨大,对于需要实时响应的延迟敏感型应用(如自动驾驶)而言不切实际。
为应对这些挑战,本文提出了 SuperPure,一种全新的防御策略。它巧妙地结合了像素级对抗性掩码和基于生成对抗网络(GAN)的超分辨率技术,旨在以极低的推理延迟,同时抵御局部和分布式两类补丁攻击。
核心贡献
该研究的主要贡献可以概括为以下几点:
- 提出 SuperPure 防御机制:一种新颖的、与分类器无关(model-agnostic)的防御方法,能有效抵御单一局部和分布式补丁攻击,无需修改或重新训练现有模型,具备“即插即用”的特性。
- 显著提升鲁棒性:在 ImageNet 数据集上,使用 ResNet 和 EfficientNet 等标准分类器进行的广泛评估表明,SuperPure:
- 针对局部补丁攻击,鲁棒性平均提升超过 20%。
- 针对分布式补丁攻击(DorPatch),实现了 59% 的鲁棒性,而 PatchCleanser 在此场景下完全失效(鲁棒性为 0%)。
- 在干净样本(无攻击)上,准确率提升近 10%。
- 大幅降低计算延迟:SuperPure 将防御过程的端到端延迟降低了 98% 以上,使其在实际应用中更具可行性。
- 引入计算优化技术:通过一系列设计(如自适应停止条件、轻量级GAN模型等),在不显著影响准确性和鲁棒性的前提下,有效降低了计算复杂度。
- 全面的实验与分析:论文提供了详尽的实验结果、消融研究和敏感性分析,深入探讨了方法各组件的有效性,并开源了其实现代码。
研究背景与面临的挑战
对抗性补丁攻击的威胁
对抗性攻击旨在通过向输入数据添加精心设计的扰动来误导机器学习模型。其中,对抗性补丁攻击是一种尤为危险的物理世界攻击。攻击者可以将一个包含特定图案的“补丁”(如贴纸)放置在真实环境中,从而欺骗视觉系统(例如,让自动驾驶汽车将“停止”标志识别为“限速”标志)。
- 局部补丁 (Localized Patch):扰动集中在一个连续的、可见的区域内。这是最常见的补丁攻击形式。
- 分布式补丁 (Distributed Patch):为了规避检测,攻击者将扰动分散到图像的多个子区域中。例如,DorPatch 攻击通过生成稀疏、低噪声的多个小补丁,使得依赖于检测单一连续异常区域的防御方法失效。
现有防御机制的局限性
尽管已有多种防御策略被提出,但它们普遍存在以下问题:
- PatchCleanser:作为一种先进的可验证防御方法,它通过随机平滑和掩码来识别可疑区域。然而,它的设计假设是攻击补丁是局部且连续的。面对 DorPatch 这类分布式攻击,其掩码窗口难以覆盖所有扰动,导致防御完全失效。
- PatchCURE:作为 PatchCleanser 的改进版,它通过修改模型架构来提升效率,但需要对分类器进行部分重训练,这增加了部署的复杂性和开销,失去了“即插即用”的便利性。
- 高延迟:无论是 PatchCleanser 还是 PAD 等其他方法,都需要进行多次复杂的计算或模型推理,导致处理一张图像的延迟高达数秒甚至数十秒,无法满足实时应用的需求。
SuperPure 方法详解
SuperPure 的核心思想是利用对抗性补丁与自然图像在经过“降采样-超分辨率重建”这一非线性变换后所表现出的不同特性,来识别并掩盖对抗性区域。
3.1 整体算法流程
SuperPure 的流程包含两个主要阶段:迭代掩码(Iterative Masking)用于移除较大的局部补丁,以及一个可选的增强步骤(Enhancement Step)用于清除细微的分布式扰动。完整流程如下图所示:

该流程可以分解为以下步骤:
- 迭代掩码阶段 (Iterative Masking):
- 降采样 (Downsampling):将输入的对抗性图像
x_adv按比例缩小(例如,缩小4倍)。此过程作为低通滤波器,可以削弱补丁中包含的高频对抗性噪声。 - GAN上采样 (GAN Upsampling):使用预训练的超分辨率GAN模型(如 Real-ESRGAN)将降采样后的图像恢复到原始尺寸,得到重建图像
x_up。 - 像素级比较与掩码 (Pixel-wise Comparison & Masking):计算原始对抗图像
x_adv与重建图像x_up之间的像素级差异(L2距离)。差异超过预设阈值λ的像素被认为是可疑的对抗性像素,并被掩盖(通常置为0)。 - 迭代与停止:重复以上步骤。在每次迭代中,新掩盖的像素数量会逐渐减少。当一轮迭代中新掩盖的像素数量低于某个停止阈值
ε时,迭代过程终止。
- 降采样 (Downsampling):将输入的对抗性图像
- 增强步骤 (Enhancement Step):
此步骤是
SuperPure+版本的核心。在迭代掩码完成后,对图像进行一次“上采样-再降采样”处理。具体来说,先用GAN将图像放大(例如2倍),然后再通过双线性插值等方式将其缩小回原始尺寸。这一过程可以有效平滑掉迭代掩码阶段未能处理的、低噪声的分布式扰动,并能提升干净图像的视觉质量和分类准确率。
3.2 关键技术模块解析
降采样:削弱高频扰动
对抗性补丁的有效性在很大程度上依赖于精确的高频扰动。降采样(如双线性插值)通过对像素邻域进行平均化处理,本质上是一个低通滤波器。这个过程会不成比例地破坏补丁中的高频信号,而对包含大量冗余和空间相关性的自然图像内容影响较小。理论上,将图像尺寸缩小 s 倍,对抗扰动的能量大约会衰减到原来的 1/s²。
GAN上采样与掩码:利用分布差异
为什么不使用简单的上采样(如双线性插值)而是选择复杂的GAN模型?原因在于GAN的特性:
- 基于自然图像分布进行重建:GAN模型(如Real-ESRGAN)在海量自然图像上进行训练,学习了自然图像的内在分布。当它重建一个包含“非自然”对抗性补丁的低分辨率图像时,它会倾向于生成更符合自然图像流形的内容,而不是精确复原那个对抗性补丁。
- 重建误差的显著差异:因此,对抗性补丁区域的重建误差会远大于自然图像区域。干净区域的像素在降采样后仍保留了足够的上下文信息供GAN恢复,而补丁区域的像素由于其无关联性和高频特性,在降采样后信息损失严重,导致GAN“凭空想象”出的内容与原始补丁差异巨大。
通过设定一个合适的阈值 λ,我们就可以精确地将这些高误差区域识别出来并进行掩码。下图展示了SuperPure的渐进式掩码过程。

迭代与自适应停止条件
单次“降采样-上采样-掩码”过程可能不足以完全清除补丁,因为GAN的重建会受到周围像素上下文的影响。通过多次迭代,可以逐步蚕食和消除整个补丁区域。如下图所示,随着迭代次数(Step (t))的增加,新掩盖的像素数(New Pixels Masked)迅速下降并趋于稳定,而已掩盖的对抗性像素总数(Total Adv. Pixels Masked)则趋于饱和。这表明迭代是收敛的。

SuperPure采用了一个自适应停止条件:当单次迭代中新增的掩码像素数量低于一个极小的阈值 ε 时,便停止迭代。这种动态机制避免了不必要的计算,在保证效果的同时极大地提升了效率。对于干净的图像,通常几次迭代后就会停止。
增强步骤 (SuperPure+):应对分布式攻击与提升图像质量
迭代掩码对于大而连续的补丁非常有效,但难以处理像DorPatch那样细微、分散的扰动。这些扰动与图像的自然噪声相似,重建误差不足以触发掩码阈值。为此,SuperPure+ 引入了最终的“增强”步骤:先上采样,后降采样。
- 原理:这一过程类似于扩散模型中的去噪步骤。GAN上采样引入了更多高频细节(可以看作扩散),而随后的降采样则平滑掉了这些新增的信息以及图像中原有的细微噪声(可以看作去噪)。这个过程能够有效滤除分布式对抗扰动。
- 双重效益:除了防御分布式攻击,该步骤还能显著提升干净图像的质量和分类准确率。实验表明,仅对干净图像应用此增强步骤,就能使Top-1准确率平均提升约10%。

实验评估与结果分析
论文通过一系列详尽的实验,从鲁棒性、计算开销等多个维度对SuperPure进行了全面评估,并与当前最先进的防御方法进行了对比。
4.1 实验设置
- 数据集: ImageNet 验证集的子集(5000张图像)。
- 分类器: 三种结构迥异的模型:EfficientNet-B0, ResNet-152 v2, ViT-B/16,以验证方法的通用性。
- 防御方法对比:
- No Defense: 无任何防御的基线。
- PatchCleanser: 当前流行的可验证防御方法。
- PAD: 一种基于互信息和重压缩的补丁定位防御方法。
- SuperPure / SuperPure+: 本文提出的方法。
- 攻击类型:
- 单一局部补丁: 使用 Masked PGD 生成不同尺寸(16×16 到 96×96)的补丁。
- 分布式补丁: 使用 DorPatch 生成。
- 自适应白盒攻击: 攻击者完全了解防御网络(包括超分模型)的结构和参数。
4.2 鲁棒性评估结果
单一局部补丁攻击 (Single Localized Patch Attacks)
下表展示了不同防御方法在ViT、EfficientNet和ResNet模型上对抗不同尺寸局部补丁的鲁棒准确率(Robust Accuracy)。
| 模型 | 防御方法 | 无攻击 (0) | 16×16 | 32×32 | 48×48 | 64×64 | 96×96 |
|---|---|---|---|---|---|---|---|
| ViT | No Defense | 74.84% | 38.02% | 4.32% | 0.50% | 0.16% | 0.00% |
| PatchCleanser | 72.10% | 54.33% | 44.21% | 35.30% | 30.74% | 20.72% | |
| PAD | 44.76% | 46.58% | 47.04% | 46.36% | 45.62% | 41.64% | |
| SuperPure | 74.96% | 74.30% | 73.66% | 72.86% | 70.36% | 62.76% | |
| SuperPure+ | 82.98% | 80.70% | 77.82% | 77.52% | 74.66% | 65.90% | |
| EfficientNet | No Defense | 60.76% | 30.82% | 5.12% | 0.82% | 0.20% | 0.02% |
| PatchCleanser | 57.98% | 43.60% | 38.46% | 27.46% | 22.66% | 10.92% | |
| PAD | 34.70% | 35.30% | 34.70% | 33.94% | 32.72% | 26.02% | |
| SuperPure | 61.10% | 59.76% | 58.34% | 55.98% | 52.42% | 41.86% | |
| SuperPure+ | 69.08% | 63.54% | 60.48% | 54.12% | 46.72% | 28.22% | |
| ResNet | No Defense | 71.70% | 45.10% | 24.52% | 14.28% | 4.38% | 0.10% |
| PatchCleanser | 68.98% | 56.72% | 51.64% | 41.28% | 33.82% | 19.66% | |
| PAD | 48.19% | 50.10% | 50.28% | 49.38% | 45.04% | 43.30% | |
| SuperPure | 71.20% | 70.48% | 70.10% | 68.52% | 66.20% | 58.18% | |
| SuperPure+ | 79.86% | 76.74% | 76.30% | 74.20% | 70.64% | 57.84% |
分析结论:
- 全面超越: 在所有模型和所有补丁尺寸下,SuperPure 和 SuperPure+ 的鲁棒准确率均显著优于其他所有防御方法。例如,在ResNet上应对48×48的补丁时,SuperPure+ 达到74.20%的准确率,而表现最好的基线PAD仅为49.38%。
- 干净准确率提升: SuperPure+ 不仅防御效果好,在无攻击的干净图像上,其准确率甚至比“无防御”基线高出约8%。这证明了增强步骤对图像质量的提升作用。
- 大补丁下的韧性: 即使在96×96的极大补丁攻击下,SuperPure+ 依然能在ResNet上保持57.84%的准确率,而无防御模型准确率已接近于0。
分布式补丁攻击 (Distributed Patch Attacks)
面对专门设计用来规避掩码防御的DorPatch攻击,不同方法的表现差异巨大。
| 方法 | 干净准确率 | DorPatch 鲁棒性 |
|---|---|---|
| No Defense | 72% | 0% |
| PatchCleanser | 69% | 0% |
| PAD | 48% | 39% |
| SuperPure | 71% | 0% |
| SuperPure+ | 80% | 59% |
分析结论:
- PatchCleanser 完全失效: 由于DorPatch的扰动是分散的,PatchCleanser的单窗口掩码策略无法有效覆盖,导致其鲁棒性降为0%。
- SuperPure+ 的关键作用: 标准版SuperPure(无增强步骤)同样无法处理这种低噪声的分布式扰动。然而,SuperPure+凭借其最终的“增强”步骤,成功将鲁棒性提升至59%,证明了该步骤在防御高级攻击类型中的不可或缺性。
自适应白盒攻击 (Adaptive White-Box Attacks)
这是最强的攻击设定,攻击者知道防御方的所有秘密。实验在ResNet上进行。
| 防御方法 | 补丁尺寸 | 鲁棒准确率 |
|---|---|---|
| Naïve Down&Up (白盒) | 48×48 | 9.12% |
| 64×64 | 4.89% | |
| PatchCleanser (黑盒) | 48×48 | 41.28% |
| 64×64 | 31.28% | |
| SuperPure+ (白盒) | 48×48 | 60.38% |
| 64×64 | 51.52% |
分析结论:
- 简单变换的脆弱性: 一个简单的“降采样-上采样”防御在白盒攻击下不堪一击,准确率骤降至个位数。
- SuperPure+ 的强大韧性: 即使攻击者可以针对SuperPure+的整个非线性管道(包括GAN模型)进行梯度优化来制作补丁,SuperPure+ 依然保持了超过50%的鲁棒性。这得益于其复杂的、非线性的、梯度不稳定的处理流程,使得攻击者极难构造出能“幸存”下来的有效扰动。
4.3 计算开销与性能对比
延迟 (Latency)
延迟是衡量防御方法实用性的关键指标。
| 方法 | 时间 (s) |
|---|---|
| PatchCleanser-Efficient / PatchCleanser | 3.89 / 36.63 |
| PAD | 8.80 |
| SuperPure / SuperPure+ | 0.53 / 0.58 |
分析结论: SuperPure+ 的处理速度比 PatchCleanser 快约63倍,比 PAD 快约15倍。这种数量级的速度提升使其在实时应用中成为可能。
与 PatchCURE 的对比
PatchCURE 是 PatchCleanser 的高效变体,但需要重训练模型。下表在ViT模型上对比了SuperPure与PatchCURE。
| 方法 | 干净准确率 (%) | 鲁棒准确率 (%) | 需要重训练? |
|---|---|---|---|
| PatchCURE | 72 | 41 | 是 |
| SuperPure | 80 | 75 | 否 |
| SuperPure+ | 83 | 79 | 否 |
分析结论: SuperPure+ 不仅在干净准确率和鲁棒性上远超 PatchCURE(鲁棒性绝对提升38%),更重要的是它无需重训练,保持了“即插即用”的巨大优势。
消融研究与参数分析
为了深入理解SuperPure各组件的作用,论文进行了一系列消融研究。
5.1 迭代次数与补丁尺寸的关系

分析: 该图表明SuperPure的自适应停止条件是有效的。对于无攻击或小补丁的情况,迭代次数很少(约3-4次),节省了计算资源。而对于大补丁,系统会自动增加迭代次数以确保防御效果,实现了计算效率和鲁棒性的动态平衡。
5.2 掩码阈值 (λ) 的影响

分析: 阈值 λ 的选择是一个权衡。阈值过低,会误伤正常像素,导致迭代次数增多且准确率下降。阈值过高,则可能漏掉对抗性像素。实验表明,λ 在 0.6 到 0.85 之间能取得较好的效果,其中 0.75 附近是最佳选择,此时准确率高且迭代次数相对较少。
5.3 超分辨率模型的作用
论文强调了使用GAN模型(如Real-ESRGAN)而非简单插值的重要性。简单的线性变换容易被白盒攻击者利用,攻击者可以构造出在降采样和上采样后保持不变的“平滑”噪声。而GAN的非线性特性使其难以被绕过。

分析: 上图直观地证明了GAN在防御自适应攻击中的关键作用。简单的平均化操作无法应对精心设计的攻击,而SuperPure利用GAN将图像投影到自然图像流形的能力,成功地破坏了对抗性结构。
结论
本文提出的 SuperPure 是一种高效、通用且强大的对抗性补丁防御方法。它通过创新地结合降采样、GAN超分辨率重建和迭代式像素掩码,成功地解决了现有防御方法在应对分布式攻击时的脆弱性以及计算延迟过高的问题。
SuperPure+ 版本通过引入一个最终的“增强”步骤,不仅能够有效抵御如 DorPatch 等高级分布式攻击,还能意外地提升模型在干净样本上的分类准确率,实现了防御鲁棒性和模型通用性的双重增益。
大量的实验数据无可辩驳地证明,SuperPure在鲁棒性、效率和通用性方面均全面超越了当前最先进的防御方法,如PatchCleanser、PAD和PatchCURE。其“即插即用”的特性和极低的延迟,为在自动驾驶、安防监控等真实世界的延迟敏感型系统中部署强大的对抗性防御提供了现实可行的方案。