Learning Transferable Adversarial Examples via Ghost Networks
论文链接
本文 “Learning Transferable Adversarial Examples via Ghost Networks” 一文提出了 Ghost Networks,旨在提升对抗样本的迁移性,通过在现有模型上施加特征级扰动生成大量虚拟模型,并采用纵向集成方法融合,有效提高了对抗攻击效果,且计算成本低、应用灵活。
摘要-Abstract
Recent development of adversarial attacks has proven that ensemble-based methods outperform traditional, nonensemble ones in black-box attack. However, as it is computationally prohibitive to acquire a family of diverse models, these methods achieve inferior performance constrained by the limited number of models to be ensembled.
In this paper, we propose Ghost Networks to improve the transferability of adversarial examples. The critical principle of ghost networks is to apply feature-level perturbations to an existing model to potentially create a huge set of diverse models. After that, models are subsequently fused by longitudinal ensemble. Extensive experimental results suggest that the number of networks is essential for improving the transferability of adversarial examples, but it is less necessary to independently train different networks and ensemble them in an intensive aggregation way. Instead, our work can be used as a computationally cheap and easily applied plug-in to improve adversarial approaches both in single-model and multimodel attack, compatible with residual and non-residual networks. By reproducing the NeurIPS 2017 adversarial competition, our method outperforms the No.1 attack submission by a large margin, demonstrating its effectiveness and efficiency.
对抗攻击的最新发展已经证明,在黑盒攻击中,基于集成的方法优于传统的非集成方法。然而,由于获取一系列不同模型的计算成本过高,这些方法由于可集成的模型数量有限而性能较差。
在本文中,我们提出了幽灵网络(Ghost Networks)来提高对抗样本的迁移性。幽灵网络的关键原理是对现有模型应用特征级扰动,从而有可能创建大量不同的模型。之后,通过纵向集成来融合这些模型。大量的实验结果表明,网络的数量对于提高对抗样本的迁移性至关重要,但独立训练不同的网络并以密集聚合的方式进行集成则并非必要。相反,我们的工作可以作为一种计算成本低且易于应用的插件,用于改进单模型和多模型攻击中的对抗方法,并且与残差网络和非残差网络兼容。通过重现 2017 年 NeurIPS 对抗竞赛,我们的方法大幅优于排名第一的攻击提交方案,证明了其有效性和高效性。
引言-Introduction
- 对抗样本: 卷积神经网络(CNNs)在图像识别、目标检测和语义分割等视觉任务中取得显著进展,但存在对抗样本问题,即在输入图像中添加人眼难以察觉的微小扰动,会使原本能正确分类的图像被 CNNs 误判,这些扰动后的图像即为对抗样本,且该问题不仅存在于图像分类任务中。
- 对抗攻击: 攻击方式分为白盒攻击(攻击者可获取模型)和黑盒攻击(攻击者无法获取目标模型,需利用对抗样本的迁移性,通过攻击替代模型或其集成来实现)。在提高对抗样本迁移性方面,基于集成的攻击方法性能更优,因此受到广泛关注,但此类方法计算开销大。其原因一是需独立训练多个不同且优质(低测试误差、收敛于不同局部最小值)的模型,二是现有方法采用密集聚合方式融合网络输出,导致在竞赛中受计算成本限制,通常最多只能集成十个网络。
- 幽灵网络: 虽然已有一些提高迁移性的方法,如重新训练网络、基于查询的方法等,但大多效率低且难以学习到强迁移性的对抗样本。本文提出幽灵网络(Ghost Networks)来解决此问题,其基本原理是在一个基础网络上生成大量虚拟模型(通过对非残差和残差网络分别应用特征级扰动即时生成,而非存储或训练),并采用纵向集成(Longitudinal Ensemble)方法在攻击迭代中隐式集成这些幽灵网络,从而在不牺牲计算效率的情况下生成对抗样本。
- 本文贡献: 首先探索网络侵蚀来学习可迁移对抗样本,而非仅依赖多网络集成;其次发现集成的不同网络数量对迁移性至关重要,但独立训练不同模型并非必要,幽灵网络是低复杂度的有效替代方案;最后,幽灵网络具有通用性,可应用于单模型和多模型攻击,且兼容多种网络结构、攻击方法和对抗设置。实验证明该方法能有效提高对抗样本迁移性,在重现 NeurIPS 2017 对抗竞赛时,大幅优于第一名的攻击提交方案,体现其有效性和高效性。
图 1:所提出的幽灵网络在学习可迁移对抗样本方面能力的图示。基础模型是 ResNet - 50,它用于生成对抗样本以及生成幽灵网络。评估是在 Inception v3 上进行的.
背景-Backgrounds
- 介绍了两种基于迭代的方法:
- Iterative Fast Gradient Sign Method (I - FGSM):由 Kurakin 等人提出,通过迭代方式学习对抗样本 I a d v I^{adv} Iadv。首先令 I 0 a d v = I I_{0}^{adv}=I I0adv=I,然后在每次迭代 n + 1 n + 1 n+1 时,按照公式 I n + 1 a d v = C l i p I ϵ { I n a d v + α s i g n ( ∇ I L ( I n a d v , y t r u e ; θ ) ) } I_{n + 1}^{adv}=Clip_{I}^{\epsilon}\{I_{n}^{adv}+\alpha sign(\nabla_{I}L(I_{n}^{adv},y^{true};\theta))\} In+1adv=ClipIϵ{Inadv+αsign(∇IL(Inadv,ytrue;θ))} 更新对抗样本。其中 L L L 是具有参数 θ \theta θ 的网络的损失函数, C l i p Clip Clip 函数确保生成的对抗样本在原始图像 I I I 的 ϵ \epsilon ϵ - 球内且带有真实标签 y t r u e y^{true} ytrue, n n n 为迭代次数, α \alpha α 是步长。
- Momentum I - FGSM (MI - FGSM):由 Dong 等人提出,在攻击过程中集成了动量项。在第 n n n次迭代时,先计算累积梯度 g n + 1 = μ ⋅ g n + ∇ I L ( I n a d v , y t r u e ; θ ) ∥ ∇ I L ( I n a d v , y t r u e ; θ ) ∥ 1 g_{n + 1}=\mu\cdot g_{n}+\frac{\nabla_{I}L(I_{n}^{adv},y^{true};\theta)}{\left\|\nabla_{I}L(I_{n}^{adv},y^{true};\theta)\right\|_{1}} gn+1=μ⋅gn+∥∇IL(Inadv,ytrue;θ)∥1∇IL(Inadv,ytrue;θ),其中 μ \mu μ 是动量项的衰减因子。然后使用累积梯度 g n + 1 g_{n + 1} gn+1 的符号按照公式 I n + 1 a d v = C l i p I ϵ { I n a d v + α s i g n ( g n + 1 ) } I_{n + 1}^{adv}=Clip_{I}^{\epsilon}\{I_{n}^{adv}+\alpha sign(g_{n + 1})\} In+1adv=ClipIϵ{Inadv+αsign(gn+1)} 生成对抗样本。
这两种方法为后续 Ghost Networks 在实验中的应用提供了基础的攻击方法框架,用于评估对抗样本的生成效果和对抗网络的鲁棒性。
幽灵网络-Ghost Networks
- Dropout Erosion
- Dropout回顾:Dropout是深度学习中防止过拟合的常用技术,在训练阶段随机丢弃模型单元,使输出 y l = r l ∗ x l y_{l}=r_{l}*x_{l} yl=rl∗xl( r l ∼ B e r n o u l l i ( p ) r_{l}\sim Bernoulli(p) rl∼Bernoulli(p)),测试时为保持输出与训练时预期输出一致, y t y_{t} yt 设为 p x l px_{l} pxl.
- 扰动Dropout:受Dropout启发,通过在基础网络各块密集插入Dropout层生成Ghost Networks,而非仅用默认Dropout层,以增加多样性。设 f l f_{l} fl 为层间函数,经Dropout侵蚀后输出 g l ( x l ) = f l ( r l ∗ x l 1 − Λ ) g_{l}(x_{l}) = f_{l}(\frac{r_{l}*x_{l}}{1-\Lambda}) gl(xl)=fl(1−Λrl∗xl)( r l ∼ B e r n o u l l i ( 1 − Λ ) r_{l}\sim Bernoulli(1-\Lambda) rl∼Bernoulli(1−Λ)),通过调整 Λ \Lambda Λ(侵蚀程度)改变网络扰动。
- 生成Ghost Network:分三步,先从伯努利分布采样参数集 r r r,再用 r r r 对基础网络应用公式得到扰动网络,最后重复采样 N N N 次获得Ghost Networks池用于攻击。
- Skip Connection Erosion
-
Skip Connection回顾:在CNNs中,skip connections(如 x l + 1 = h ( x l ) + F ( x l , W l ) x_{l + 1}=h(x_{l}) + F(x_{l},W_{l}) xl+1=h(xl)+F(xl,Wl),常取 h ( x l ) = x l h(x_{l}) = x_{l} h(xl)=xl)使深度神经网络训练可行。
-
扰动Skip Connection:对skip connections施加扰动生成Ghost Networks,将网络权重学习时的恒等skip connection切换为随机调制标量 λ l \lambda_{l} λl( λ l \lambda_{l} λl 从 U [ 1 − Λ , 1 + Λ ] U[1-\Lambda, 1+\Lambda] U[1−Λ,1+Λ]采样),即 x l + 1 = λ l x l + F ( x l , W l ) x_{l + 1}=\lambda_{l}x_{l}+F(x_{l},W_{l}) xl+1=λlxl+F(xl,Wl),但模型并非通过此公式训练。
-
生成Ghost Network:与Dropout Erosion类似,只是需为每个skip connection从均匀分布采样调制标量 λ \lambda λ.
-
- Longitudinal Ensemble
- 现有基于迭代的集成攻击方法需平均不同网络输出,计算成本高。本文提出纵向集成方法,针对Ghost Networks,在对抗攻击迭代(如I - FGSM、MI - FGSM)中,每次仅攻击一个Ghost Network M j M_{j} Mj,通过随机化扰动隐式集成,避免了标准集成方法每次迭代融合所有模型梯度的高成本。
- 该方法与已有研究有相同前提,即攻击多个网络生成的对抗样本更易迁移,但通过减少计算冗余提高了效率。具有不存储或训练Ghost Networks、可与标准集成结合、易扩展到多模型攻击等优势。
图 3:标准集成(a)和所提出的纵向集成(b)的图示.
实验-Experiments
- 实验设置
- 基础网络:采用 9 个模型,包括 6 个正常训练模型(Resnet v2 - {50, 101, 152}、Inception v3、Inception v4、Inception Resnet v2)和 3 个对抗训练模型(Inc - v3ens3、Inc - v3ens4、IncRes - v2ens)。
- 数据集:从 ILSVRC 2012 验证集中选取 5000 张能被所有 9 个基础模型正确分类的图像,避免攻击原本就误分类的图像,使实验更具针对性。
- 攻击方法:运用 I - FGSM 和 MI - FGSM 这两种基于迭代的攻击方法评估对抗鲁棒性,且除特殊说明外,参数遵循 Kurakin、Goodfellow 和 Bengio(2017a)的默认设置,如步长 α = 1 \alpha = 1 α=1,总迭代次数 N = m i n ( ϵ + 4 , 1.25 ϵ ) N = min(\epsilon + 4, 1.25\epsilon) N=min(ϵ+4,1.25ϵ)( ϵ = 8 \epsilon = 8 ϵ=8 时 N = 10 N = 10 N=10),动量项衰减因子 μ = 1 \mu = 1 μ=1.
- Ghost Networks分析
- 描述能力:通过绘制侵蚀程度
Λ
\Lambda
Λ 与 top - 1 分类准确率的关系曲线,对生成的 Ghost Networks 进行定量测量。对非残差网络(Incv3 和 Inc - v4)应用 Dropout 侵蚀,对残差网络(Res - 50、Res - 101、Res - 152 和 IncRes - v2)应用 Skip Connection 侵蚀。结果表明,如预期的那样,不同模型的分类准确率与侵蚀程度
Λ
\Lambda
Λ 呈负相关。通过选择性能下降约 10%作为阈值,确定了每个网络的
Λ
\Lambda
Λ 值,如 Inc - v3、Inc - v4、Res - 50 等分别对应不同的
Λ
\Lambda
Λ,证明能生成保持相对低错误率的大量 Ghost Networks,成本极低。
图 4:不同侵蚀程度 Λ 下的 Dropout 侵蚀(a)和跳跃连接侵蚀(b)的 top-1 准确率。 - 模型多样性:以 Res - 50 为骨干模型,将实验设置中的基础 Res - 50 记为 Res - 50 - A,并独立训练两个相同架构的模型 Res - 50 - B 和 Res - 50 - C,同时对 Res - 50 - A 应用 Skip Connection 侵蚀得到三个 Ghost Networks(Res - 50S - A、Res - 50S - B、Res - 50S - C)。采用 Jensen - Shannon Divergence(JSD)作为模型多样性的评估指标,计算每对网络输出概率分布的成对相似性。结果显示 Ghost Networks 之间的多样性与独立训练的网络相当甚至更显著,这有利于学习可迁移的对抗样本。
图 5:在 ILSVRC 2012 验证集上任意一对网络的平均多样性(×10⁻²)图示。数值越高表明多样性越大。
- 描述能力:通过绘制侵蚀程度
Λ
\Lambda
Λ 与 top - 1 分类准确率的关系曲线,对生成的 Ghost Networks 进行定量测量。对非残差网络(Incv3 和 Inc - v4)应用 Dropout 侵蚀,对残差网络(Res - 50、Res - 101、Res - 152 和 IncRes - v2)应用 Skip Connection 侵蚀。结果表明,如预期的那样,不同模型的分类准确率与侵蚀程度
Λ
\Lambda
Λ 呈负相关。通过选择性能下降约 10%作为阈值,确定了每个网络的
Λ
\Lambda
Λ 值,如 Inc - v3、Inc - v4、Res - 50 等分别对应不同的
Λ
\Lambda
Λ,证明能生成保持相对低错误率的大量 Ghost Networks,成本极低。
- 单模型攻击:设计五个实验比较,在攻击者只能访问一个从头训练的基础模型 B 的单模型攻击场景下评估 Ghost Networks。实验差异在于攻击的模型类型、每次迭代中标准集成 Liu et al.(2017)的模型数量以及标准集成每个分支中纵向集成的模型数量。例如 Exp. S5 结合了两种集成方法,每次攻击迭代进行 10 个模型的标准集成和 10 个模型的纵向集成,内在模型数达 100 个。攻击 6 个正常训练网络并在所有 9 个网络(包括 3 个对抗训练网络)上测试,结果表明单个 Ghost Network 比基础网络差(Exp. S2 vs. Exp. S1),但利用纵向集成后在大多数设置中攻击率显著提高(Exp. S3 vs. Exp. S1),且 Exp. S3 计算成本与 Exp. S1 几乎相同,因为 Ghost Networks 是从基础模型即时生成且通过纵向集成融合。同时,Ghost Networks 也可通过标准集成方法融合(如 Exp. S4),牺牲计算效率可获得更高攻击率,而 Exp. S5 结合两种方法在所有黑盒设置中表现最佳,证明 Ghost Networks 在学习可迁移对抗样本方面的有效性,且无需额外空间复杂度,表明内在模型数量对提高对抗样本迁移性至关重要,而独立训练不同模型并非必要,Ghost Networks 是低成本的有效替代方案。通过攻击 Res - 50 和 Inc - v3 并在所有 9 个模型上测试的结果,可直观看到采用 Ghost Networks 后迁移性的提升。
表 1:不同方法在两种迭代方法上的平均黑盒攻击率(%)比较,“I - ”代表 I - FGSM,“MI - ”代表 MI - FGSM。MT 表示模型类型(B 代表基础模型,M 代表幽灵网络),#I 表示内在模型的数量,#S(或#L)表示每次迭代(分支)中标准(或纵向)集成的模型数量。CC 表示计算成本,它是一个相对值,我们将 Exp.S1 的 CC 设置为 1。我们将相同 CC 下的所有最高攻击成功率用粗体标记.
图 6:使用 I-FGSM(a)(c)和 MI-FGSM(b)(d)攻击 Res-50(a)(b)和 Inc-v3(c)(d)时的攻击率(%)比较。 - 多模型攻击
- 相同架构和不同参数:评估多模型攻击的简单设置,即基础模型具有相同网络架构但权重不同,使用三个 Res - 50 模型进行实验,设置 6 组实验,除新增参数#B(从头训练的模型数量)外,其他与单模型攻击设置相同。结果显示,如 Exp. M2 比 Exp. M1、Exp. M3 和 Exp. M4 性能好,因为它有三个独立训练的模型,但 Exp. M5 相比 Exp. M2 攻击率有显著提升,尽管 Exp. M5 只有 1 个基础模型而 Exp. M2 有 3 个,但 Exp. M5 实际融合了 30 个内在模型,进一步支持了内在模型数量重要且无需独立从头训练获取的观点,Exp. M6 因有 3 个独立训练模型和 30 个内在模型而性能最佳。
表 2:多模型攻击的攻击率(%)比较。“I - ”、“MI - ”、MT、#S、#L、#I 和 CC 与表 1 中的含义相同。#B 表示基础模型的数量。我们在实验设置部分描述的 9 个网络上进行测试,并报告平均性能。 - 不同架构:按照 Liu et al.(2017)的方法评估 Ghost Networks 在多模型设置下的性能,攻击 6 个正常训练模型中的 5 个并测试剩余网络(黑盒设置),同时攻击 6 个正常训练模型并测试 3 个对抗训练模型以评估黑盒攻击中生成的对抗样本的迁移性。结果表明,如当留出 Res - 50 时,该方法使 I - FGSM 性能从 71.08 提升到 80.22,MI - FGSM 从 79.32 提升到 87.14,在对抗训练网络上测试时提升更显著,再次证明 Ghost Networks 学习可迁移对抗样本的能力。
表 3:多模型攻击的攻击率(%)比较。“Ensemble”表示攻击全部 6 个自然训练模型。“Holdout”表示攻击 6 个模型中的 5 个。符号“-”表示留出模型的名称.
- 相同架构和不同参数:评估多模型攻击的简单设置,即基础模型具有相同网络架构但权重不同,使用三个 Res - 50 模型进行实验,设置 6 组实验,除新增参数#B(从头训练的模型数量)外,其他与单模型攻击设置相同。结果显示,如 Exp. M2 比 Exp. M1、Exp. M3 和 Exp. M4 性能好,因为它有三个独立训练的模型,但 Exp. M5 相比 Exp. M2 攻击率有显著提升,尽管 Exp. M5 只有 1 个基础模型而 Exp. M2 有 3 个,但 Exp. M5 实际融合了 30 个内在模型,进一步支持了内在模型数量重要且无需独立从头训练获取的观点,Exp. M6 因有 3 个独立训练模型和 30 个内在模型而性能最佳。
- NeurIPS 2017 对抗挑战:在 NeurIPS 2017 对抗挑战的基准测试中评估该方法,使用排名前三的防御提交(黑盒模型)和三个官方基线(白盒模型),测试数据集包含 5000 张与 ImageNet 相同 1000 类标签的图像。按照 No.1 攻击提交(Dong et al., 2018)的实验设置进行攻击,结果显示应用 Ghost Networks 可显著提高 No.1 提交方法的性能,尤其是在黑盒攻击中,如平均性能从 33.57 提升到 39.59,在测试 iyswim 时提升达 9.08,表明该方法对其他防御机制具有良好的泛化能力。
表 4:在 2017 年 NeurIPS 对抗挑战赛中的攻击成功率(%)对比.
结论-Conclusion
本文聚焦于对抗攻击中可迁移对抗样本的学习,提出利用网络侵蚀生成幽灵网络(Ghost Networks)并结合纵向集成(Longitudinal Ensemble)策略,有效提升了现有方法在学习可迁移对抗样本方面的效果与效率,且具有通用性和拓展性,为后续研究提供了方向。
- 方法创新与有效性:首次探索网络侵蚀生成虚拟模型(Ghost Networks),改变了仅依赖多网络集成的传统方式。实验充分证明,Ghost Networks在提高对抗样本迁移性上效果显著,无论是单模型还是多模型攻击场景,都能有效提升攻击率,且在 NeurIPS 2017 对抗挑战中表现出色,大幅超越已有方法,验证了其在不同环境下的有效性。
- 计算成本与应用优势:该方法计算成本低,生成的 Ghost Networks 无需存储和训练,避免了额外的时空开销。纵向集成策略进一步优化了计算效率,使其能便捷地应用于多种网络结构和攻击方法,作为插件可轻松提升对抗攻击性能。
- 未来研究方向:提出可进一步探索通过其他方法对残差单元进行侵蚀,或对神经网络的其他典型层(如批量归一化层和 ReLU 层)进行密集侵蚀,预期这些方法也能提高对抗样本的迁移性,为后续研究提供了潜在的探索路径。