Nesterov Accelerate Gradient And Scale Invariance For Adversarial Attacks
本文 “Nesterov Accelerate Gradient And Scale Invariance For Adversarial Attacks” 提出了Nesterov迭代快速梯度符号法(NI-FGSM)和尺度不变攻击法(SIM),将其结合并与其他方法集成,有效提高了对抗样本的迁移性,在攻击各类模型和防御机制时展现出高成功率,为对抗攻击研究提供了新方法和思路。
摘要-Abstract
Deep learning models are vulnerable to adversarial examples crafted by applying human-imperceptible perturbations on benign inputs. However, under the blackbox setting, most existing adversaries often have a poor transferability to attack other defense models. In this work, from the perspective of regarding the adversarial example generation as an optimization process, we propose two new methods to improve the transferability of adversarial examples, namely Nesterov Iterative Fast Gradient Sign Method (NI-FGSM) and Scale-Invariant attack Method (SIM). NI-FGSM aims to adapt Nesterov accelerated gradient into the iterative attacks so as to effectively look ahead and improve the transferability of adversarial examples. While SIM is based on our discovery on the scale-invariant property of deep learning models, for which we leverage to optimize the adversarial perturbations over the scale copies of the input images so as to avoid “overfitting” on the white-box model being attacked and generate more transferable adversarial examples. NI-FGSM and SIM can be naturally integrated to build a robust gradient-based attack to generate more transferable adversarial examples against the defense models. Empirical results on ImageNet dataset demonstrate that our attack methods exhibit higher transferability and achieve higher attack success rates than state-of-the-art gradient-based attacks.
深度学习模型容易受到通过在良性输入上施加人类难以察觉的扰动而精心制作的对抗样本的攻击。然而,在黑盒设置下,大多数现有的攻击方法在攻击其他防御模型时往往迁移性较差。在这项工作中,从将对抗样本生成视为一个优化过程的角度出发,我们提出了两种新方法来提高对抗样本的迁移性,即Nesterov迭代快速梯度符号法(NI - FGSM)和尺度不变攻击法(SIM)。NI - FGSM旨在将Nesterov加速梯度应用于迭代攻击中,以便有效地进行前瞻性探索并提高对抗样本的迁移性。而SIM是基于我们对深度学习模型尺度不变性的发现,我们利用这一特性在输入图像的尺度副本上优化对抗扰动,从而避免对正在被攻击的白盒模型“过拟合”,并生成更具迁移性的对抗样本。 NI - FGSM和SIM可以自然地结合起来,构建一种强大的基于梯度的攻击方法,以生成针对防御模型的更具迁移性的对抗样本。在ImageNet数据集上的实验结果表明,我们的攻击方法比最先进的基于梯度的攻击方法具有更高的迁移性和更高的攻击成功率。
引言-Introduction
- 深度学习模型的脆弱性与对抗样本的特性
- 深度学习模型易受对抗样本攻击,对抗样本通过在良性输入上施加微小扰动使模型误分类,且具有迁移性,能在不同模型间误导分类结果。
- 对抗样本对评估和提升模型鲁棒性有重要意义,其高迁移性生成方法备受关注。
- 现有攻击方法的局限性
- 基于梯度的攻击方法包括一步攻击(如FGSM)和迭代攻击(如I - FGSM、PGD、MI - FGSM等)。
- 白盒设置下现有攻击方法成功率高,但黑盒设置下,尤其是面对有防御机制的模型(如对抗训练和输入修改后的模型)时,成功率低,难以生成有效对抗样本。
- 本文提出的方法及思路
- 将对抗样本生成视为优化过程,提出NI - FGSM和SIM两种方法。
- NI - FGSM引入Nesterov加速梯度到迭代攻击中,利用其前瞻性改进对抗样本迁移性,有望取代MI - FGSM提升性能。
- SIM基于深度学习模型的尺度不变性,通过在输入图像尺度副本上优化对抗扰动实现模型增强,避免对被攻击白盒模型“过拟合”,生成更易迁移的对抗样本。
- NI - FGSM和SIM与现有方法(如DIM)结合可进一步提高攻击成功率。
- 实验预期效果及验证范围
- 在ImageNet数据集上实验,预期新方法攻击正常和对抗训练模型成功率高于基线攻击方法。
- SI - NI - TI - DIM方法在黑盒设置下对对抗训练模型平均成功率达93.5%,还将评估新方法对最新鲁棒防御方法的有效性,以验证其对抗样本迁移性优势。
预备知识-Preliminary
符号表示
设 x x x 为良性图像, y t r u e y^{true} ytrue 为其对应的真实标签。设 J ( x , y t r u e ) J(x, y^{true}) J(x,ytrue) 为分类器的损失函数(例如交叉熵损失)。设 x a d v x^{adv} xadv 为良性图像 x x x 的对抗样本。无目标对抗攻击的目标是寻找一个对抗样本 x a d v x^{adv} xadv,使得在 ℓ p \ell_{p} ℓp 范数有界扰动下最大化损失 J ( x a d v , y t r u e ) J(x^{adv}, y^{true}) J(xadv,ytrue)。为与先前工作保持一致,本文重点关注 p = ∞ p = \infty p=∞ 来衡量 x a d v x^{adv} xadv 与 x x x 之间的失真,即 ∥ x a d v − x ∥ ∞ ≤ ϵ \left\|x^{adv}-x\right\|_{\infty} \leq \epsilon xadv−x ∞≤ϵ,其中 ϵ \epsilon ϵ 为对抗扰动的幅度。
攻击方法
- 快速梯度符号法(FGSM):FGSM通过一步更新最大化损失函数 J ( x a d v , y t r u e ) J(x^{adv}, y^{true}) J(xadv,ytrue) 来生成对抗样本 x a d v x^{adv} xadv,公式为 x a d v = x + ϵ ⋅ s i g n ( ∇ x J ( x , y t r u e ) ) x^{adv}=x+\epsilon \cdot sign(\nabla_{x} J(x, y^{true})) xadv=x+ϵ⋅sign(∇xJ(x,ytrue)),其中 s i g n ( ) sign() sign() 函数将扰动限制在 L ∞ L_{\infty} L∞ 范数边界内。
- 迭代快速梯度符号法(I - FGSM):Kurakin等人将FGSM扩展为迭代版本,使用小步长 α \alpha α 应用FGSM,公式为 x 0 = x , x t + 1 a d v = C l i p x ϵ { x t a d v + α ⋅ s i g n ( ∇ x J ( x t a d v , y t r u e ) ) } x_{0}=x, x_{t + 1}^{adv}=Clip_{x}^{\epsilon}\{x_{t}^{adv}+\alpha \cdot sign(\nabla_{x} J(x_{t}^{adv}, y^{true}))\} x0=x,xt+1adv=Clipxϵ{xtadv+α⋅sign(∇xJ(xtadv,ytrue))},其中 C l i p x ϵ ( ⋅ ) Clip_{x}^{\epsilon}(\cdot) Clipxϵ(⋅) 函数将生成的对抗样本限制在 x x x 的 ϵ \epsilon ϵ 球内。
- 投影梯度下降法(PGD):PGD攻击是FGSM的强大迭代变体,它在允许的范数球内随机起始,然后运行多次I - FGSM迭代来生成对抗样本。
- 动量迭代快速梯度符号法(MI - FGSM):Dong等人将动量整合到迭代攻击中,提高了对抗样本的迁移性。其更新过程如下: g t + 1 = μ ⋅ g t + ∇ x J ( x t a d v , y t r u e ) ∥ ∇ x J ( x t a d v , y t r u e ) ∥ 1 g_{t + 1}=\mu \cdot g_{t}+\frac{\nabla_{x} J(x_{t}^{adv}, y^{true})}{\left\|\nabla_{x} J(x_{t}^{adv}, y^{true})\right\|_{1}} gt+1=μ⋅gt+∥∇xJ(xtadv,ytrue)∥1∇xJ(xtadv,ytrue), x t + 1 a d v = C l i p x ϵ { x t a d v + α ⋅ s i g n ( g t + 1 ) } x_{t + 1}^{adv}=Clip_{x}^{\epsilon}\{x_{t}^{adv}+\alpha \cdot sign(g_{t + 1})\} xt+1adv=Clipxϵ{xtadv+α⋅sign(gt+1)},其中 g t g_{t} gt 是迭代 t t t 时的累积梯度, μ \mu μ 是 g t g_{t} gt 的衰减因子。
- 多样输入法(DIM):Xie等人在每次迭代时在输入图像的多样变换上优化对抗扰动,变换包括随机缩放和随机填充。DIM可自然集成到其他基于梯度的攻击中,进一步提高对抗样本的迁移性。
- 平移不变方法(TIM):Dong等人使用一组平移图像来优化对抗扰动,而不是在单个图像上优化,还开发了一种高效算法,通过将未平移图像的梯度与核矩阵卷积来计算梯度。TIM也可自然与其他基于梯度的攻击方法集成,TIM和DIM的组合(TI - DIM)是当前最强的黑盒攻击方法。
- Carlini & Wagner攻击(C&W):C&W攻击是一种基于优化的方法,通过求解 a r g m i n x a d v ∥ x a d v − x ∥ p − c ⋅ J ( x a d v , y t r u e ) \underset{x^{adv}}{arg min }\left\|x^{adv}-x\right\|_{p}-c \cdot J(x^{adv}, y^{true}) xadvargmin xadv−x p−c⋅J(xadv,ytrue) 直接优化良性样本和对抗样本之间的距离。它是一种在白盒攻击中寻找对抗样本同时最小化扰动的强大方法,但在黑盒攻击中缺乏迁移性。
防御方法
- 对抗训练:一种流行且有前景的防御方法是对抗训练,它在训练过程中用对抗样本扩充训练数据。Madry等人开发了一种成功的对抗训练方法,利用投影梯度下降(PGD)攻击生成对抗样本,但该方法难以扩展到大规模数据集。Tramr等人提出集成对抗训练,通过从各种模型转移扰动来扩充训练数据,以进一步提高对黑盒攻击的鲁棒性。目前,对抗训练仍是防御对抗攻击的最佳技术之一。
- 输入修改:第二类防御方法旨在通过修改输入数据来减轻对抗扰动的影响。Guo等人发现存在一系列图像变换,有可能在保留图像视觉信息的同时去除对抗扰动。Xie等人通过随机变换减轻对抗影响。Liao等人提出高级表示引导去噪器来净化对抗样本。Liu等人提出基于JPEG的防御压缩框架来纠正对抗样本,而不影响良性数据的分类准确性。Jia等人利用端到端图像压缩模型来防御对抗样本。尽管这些防御方法在实践中表现良好,但它们无法确定模型是否真正对对抗扰动具有鲁棒性。Cohen等人使用随机平滑来获得具有认证对抗鲁棒性的ImageNet分类器。
方法-Methodology
- 动机:生成对抗样本的过程可视为优化问题,其对抗样本的转移性类似于训练模型的泛化能力,因此可将提高模型泛化能力的方法应用于生成对抗样本,以提高其转移性。具体可从优化算法(如MI-FGSM运用动量思想)和模型增强(如同时攻击多个模型)两方面入手,本文旨在应用Nesterov加速梯度进行优化,并利用一组缩放图像实现模型增强来提高对抗样本的转移性。
- Nesterov迭代快速梯度符号法(NI-FGSM)
- 原理:Nesterov加速梯度(NAG)是一种改进的动量方法,能加速训练过程并显著提高收敛性。与普通梯度下降不同,它在计算梯度前会根据先前累积梯度进行跳跃,从而修正梯度方向,帮助逃离局部最优解,提高转移性。
- 算法步骤:将NAG集成到迭代梯度攻击中构建NI-FGSM。从 g 0 = 0 g_0 = 0 g0=0 开始,每次迭代先根据先前累积梯度 g t g_t gt 和衰减因子 μ \mu μ 计算跳跃点 x n e s t x_{nest} xnest,然后在 x n e s t x_{nest} xnest 处计算梯度 ∇ x J ( S i ( x n e s t ) , y t r u e ) \nabla_xJ(S_i(x_{nest}), y^{true}) ∇xJ(Si(xnest),ytrue) 并累加,求得平均梯度 g g g 后更新累积梯度 g t + 1 g_{t + 1} gt+1,最后根据 g t + 1 g_{t + 1} gt+1 更新对抗样本 x t + 1 a d v x_{t + 1}^{adv} xt+1adv。
- 尺度不变攻击方法(SIM)
- 定义引入
- 损失保持变换:对于输入 x x x、真实标签 y t r u e y^{true} ytrue 和分类器 f ( x ) f(x) f(x),若存在输入变换 T ( ⋅ ) T(\cdot) T(⋅) 使得 J ( T ( x ) , y t r u e ) ≈ J ( x , y t r u e ) J(T(x), y^{true}) \approx J(x, y^{true}) J(T(x),ytrue)≈J(x,ytrue),则 T ( ⋅ ) T(\cdot) T(⋅) 为损失保持变换。
- 模型增强:给定输入 x x x、真实标签 y t r u e y^{true} ytrue 和模型 f ( x ) f(x) f(x),若存在损失保持变换 T ( ⋅ ) T(\cdot) T(⋅),则新模型 f ′ ( x ) = f ( T ( x ) ) f'(x)=f(T(x)) f′(x)=f(T(x)),此过程为模型增强。通过对更多模型进行攻击可提高对抗样本的转移性,本文利用深度神经网络的尺度不变性(即原始图像和缩放图像在同一模型上的损失值相似),通过在输入图像的尺度副本上优化对抗扰动实现模型增强,提出SIM。
- 优化目标: a r g m a x x a d v 1 m ∑ i = 0 m J ( S i ( x a d v ) , y t r u e ) \underset{x^{a d v}}{arg max } \frac{1}{m} \sum_{i=0}^{m} J\left(S_{i}\left(x^{a d v}\right), y^{true }\right) xadvargmaxm1∑i=0mJ(Si(xadv),ytrue), s . t . ∥ x a d v − x ∥ ∞ ≤ ϵ s.t. \left\| x^{a d v}-x\right\| _{\infty} \leq \epsilon s.t. xadv−x ∞≤ϵ,其中 S i ( x ) = x / 2 i S_{i}(x)=x / 2^{i} Si(x)=x/2i 为尺度副本, m m m 为尺度副本数量。
- 定义引入
- 攻击算法:NI-FGSM在梯度处理上引入更好的优化算法,SIM在集成攻击中通过模型增强实现多模型攻击,二者可自然结合为SI-NI-FGSM。此外,SI-NI-FGSM还可与DIM、TIM、TI-DIM分别集成,进一步提高对抗样本的转移性,具体算法见附录A。
实验-Experiments
-
实验设置
- 数据集:从ILSVRC 2012验证集中随机选取1000张属于1000个类别的图像,这些图像几乎能被所有测试模型正确分类。
- 模型:包括正常训练的模型(如Inception-v3、Inception-v4、Inception-Resnet-v2、Resnet-v2-101)、对抗训练的模型(如Inc - (v3_{ens3})、Inc - (v3_{ens4})、IncRes - (v2_{ens}))以及其他先进的防御模型(如高级表示引导去噪器、随机缩放和填充、NIPS - (r3)、特征蒸馏、通过图像压缩模型净化扰动、随机平滑)。
- 基线方法:将本文方法与DIM、TIM和TI-DIM集成,以展示SI-NI-FGSM相对于这些基线方法的性能提升。
- 超参数:遵循相关设置,如最大扰动(\epsilon = 16)、迭代次数(T = 16)、步长(\alpha = 1.6),MI-FGSM的衰减因子(\mu = 1.0),DIM的变换概率为0.5,TIM采用高斯核且核大小为(7×7),SI-NI-FGSM的尺度副本数量(m = 5)。
-
尺度不变性验证:随机选取1000张ImageNet数据集中的原始图像,将其缩放至[0.1, 2.0]范围(步长0.1)后输入测试模型(Inc-v3、Inc-v4、IncRes-2、Res-101),计算平均损失。结果表明,当尺度大小在[0.1, 1.3]范围内时,损失曲线平滑稳定,原始图像和缩放图像的损失值相似,验证了深度模型在此范围内具有尺度不变性,可利用此性质优化对抗扰动。
图1:Inception-v3、Inception-v4、Inception-Resnet-v2和Resnet-v2-101在每个尺度大小下的平均损失。结果是在1000张图像上取平均值。 -
攻击单个模型:将SI-NI-FGSM分别与TIM、DIM和TI-DIM集成,比较在单模型设置下扩展方法与基线方法的黑盒攻击成功率。结果显示,扩展方法在黑盒设置下始终比基线攻击高出10% - 35%,在白盒设置下成功率接近100%,表明SI-NI-FGSM可有效提高对抗样本的转移性。
表1:在单模型设置下对抗攻击对七个模型的攻击成功率(%)。对抗样本分别在Inception-v3、Inception-v4、Inception-Resnet-v2和Resnet-v2-101上制作。 ∗ * ∗ 表示白盒攻击。
-
攻击模型集成:按照相关工作,考虑同时攻击多个模型来展示方法性能。分别使用TIM、SI-NI-TIM、DIM、SI-NI-DIM、TI-DIM和SI-NI-TI-DIM攻击集成的正常训练模型(Inc-v3、Inc-v4、IncRes-v2、Res-101)。结果表明,本文方法在所有实验中均提高了攻击成功率,SI-NI-TI-DIM作为结合SI-NI-FGSM与TI-DIM的扩展方法,能以93.5%的高平均成功率欺骗对抗训练模型,说明这些先进的对抗训练模型在SI-NI-TI-DIM的黑盒攻击下提供的鲁棒性保证有限。
表2:在多模型设置下对抗攻击对七个模型的攻击成功率(%)。 ∗ * ∗ 表示正在被攻击的白盒模型。
-
攻击其他先进防御模型:考虑量化本文方法对其他先进防御方法的有效性,包括NIPS竞赛中的前3种防御解决方案(高级表示引导去噪器、随机缩放和填充、NIPS - r 3 r3 r3)以及3种最近提出的防御方法(特征蒸馏、通过图像压缩模型净化扰动、随机平滑)。将SI-NI-TI-DIM与MI-FGSM(NIPS 2017竞赛的顶级攻击解决方案)和TI-DIM(当前最先进的攻击方法)进行比较,先在集成模型(Inc-v3、Inc-v4、IncRes - v2、Res - 101)上生成对抗样本,再用这些对抗样本攻击防御方法。结果显示,SI-NI-TI-DIM平均攻击成功率达到90.3%,大幅超过当前最先进攻击方法14.7%,仅依靠对抗样本的转移性攻击正常训练模型,就能欺骗对抗训练模型和其他先进防御机制,为更鲁棒的深度学习模型开发带来新的安全问题。
表3:针对先进防御方法的对抗攻击成功率(%)。
-
进一步分析
- NI - FGSM与MI - FGSM对比:对NI - FGSM和MI - FGSM进行额外分析,在Inc - v3上生成对抗样本(迭代次数4 - 16)并转移攻击Inc - v4和IncRes - v2。结果表明,相同迭代次数下NI - FGSM攻击成功率更高,且达到相同攻击成功率时NI - FGSM所需迭代次数更少,说明NI - FGSM转移性更好且能加速对抗样本生成。
图2:不同迭代次数下NI - FGSM和MI - FGSM的攻击成功率(%)。对抗样本在Inception - v3模型上制作,分别针对(a)Inception - v3模型、(b)Inception - v4模型和(c)Inception - Resnet - v2模型进行攻击。 - 与经典攻击方法对比:将本文方法与经典攻击方法(FGSM、I - FGSM、PGD、C&W)进行比较,结果显示本文方法在白盒设置下与C&W一样达到100%攻击成功率,在黑盒设置下显著优于其他方法。
表4:针对模型的对抗攻击成功率(%)。对抗样本是使用FGSM、I - FGSM、PGD、C&W、NI - FGSM和SI - NI - FGSM在Inception - v3上制作的。 ∗ * ∗ 表示正在被攻击的白盒模型。
- NI - FGSM与MI - FGSM对比:对NI - FGSM和MI - FGSM进行额外分析,在Inc - v3上生成对抗样本(迭代次数4 - 16)并转移攻击Inc - v4和IncRes - v2。结果表明,相同迭代次数下NI - FGSM攻击成功率更高,且达到相同攻击成功率时NI - FGSM所需迭代次数更少,说明NI - FGSM转移性更好且能加速对抗样本生成。
结论-Conclusion
- 研究成果总结
- 提出两种新的攻击方法,即Nesterov迭代快速梯度符号法(NI - FGSM)和尺度不变攻击方法(SIM),以提高对抗样本的转移性。
- NI - FGSM将Nesterov加速梯度方法应用于基于梯度的攻击,SIM利用模型的尺度不变性实现模型增强,二者可自然结合构建稳健的攻击方法SI - NI - FGSM,且与基线攻击集成可进一步提高对抗样本的转移性。
- 实验表明,这些方法在对抗训练模型上具有更高的成功率,并能突破其他强大的防御机制。
- 未来工作展望
- 探索其他动量方法(如Adam)在构建强攻击中的应用,关键在于如何将优化方法迁移到基于梯度的迭代攻击中。
- 深入研究深度神经网络尺度不变性的原因,可能与卷积层的批量归一化有关,它可能减轻了尺度变化的影响,未来将更深入地探索这一原因。