攻击方法(Adversarial method)

标签：基于 Based 攻击梯度 Adversarial 优化方法 method

简介

本文基于文章A Review of Adversarial Attack and Defense for Classification Methods的总结，提供对抗领域的几种常见的攻击方法；

一、基于梯度的攻击（Gradient-Based Attack）

非常经典的一种攻击方式，传统论文采用的攻击方法如FGSM,PGD,BIM,C&W等都是基于梯度的攻击方法

这些方法常基于某个优化指标，通过指标对样本的梯度从而最大最小化指标

1.1基于约束优化公式的方法

这种方法常常是损失引导的

$x^*=x_0+\delta\quad\mathrm{with}\quad\delta=\arg\max_{\delta\in\mathcal{S}}L(\theta,x_0+\delta,y_0)$

即通过最大化对抗样本的损失使得分类器错误分类

这里的 $\mathcal{S}$ 为可行域，为了使得对抗样本合法，图片中常以盒约束（box constraint）限制扰动大小，即 $x_0+\delta \in [0,1]^n$ ,也就是每个通道像素值被限定到0，1之间

这里的 $\delta$ 为扰动，常用 $\epsilon$ 球（ $\epsilon$ ball）约束，也就是扰动的无穷范数（最大值）应小于 $\epsilon$ ，即

$\|\delta\|_{\infty} \leq \epsilon$

上述公式可改写为 $\arg\max_{\delta\in\mathcal{S}}L(\theta,x_{0}+\delta,y_{0})=\arg\max_{\|\delta\|_{\infty}\leq\epsilon}L(\theta,x_{0}+\delta,y_{0})$

基于该方式产生了很多非常经典的攻击手段，如FGSM,PGD,BIM都是论文中常用的比较手段

其中投影梯度下降攻击(PGD)是一阶攻击中最强的手段

其本质理解为迭代式的FGSM $x^{t+1}=\Pi_\epsilon\left\{x^t+\alpha\cdot\mathrm{sign}\Big(\nabla_{\boldsymbol{x}}L(\boldsymbol{\theta},\boldsymbol{x}^t,y)\Big),\boldsymbol{x}_0\right\}$

1.2基于正则化优化配方的方法

该维度下最经典的算法就是C&W（详细可以看我之前写的这篇），其通过提出目标函数（objective function）：

$g(x)=\max\{f(x)_{y_0}-\max_{i\neq y_0}f(x)_i,0\}$

通过求解以下问题生成对抗样本

$x^*=\underset{x}{\operatorname*{argmin}}\left\{\|x-x_0\|_2^2+cg(x)\right\}$

这是一种目标攻击，功能函数意义为以0为临界判断是否成功攻击

其一定程度上仍是损失引导的，只是同以往的损失函数（交叉熵）定义不同罢了，该功能函数相对于交叉熵来说更为高效

C&W注重攻击是否成功的同时也把扰动大小加入了优化目标，所以往往在相同扰动大小下能有更高的攻击成功率

C&W求解也要用到梯度方法，该方法实际往往会经过更多次的迭代，同时超参数 $c$ 在不同场景下也需要计算出最佳值，这也就造成了其消耗计算资源大，耗时长的问题

当然对其优化目标稍作修改也可以是非目标攻击 $g(x)=\max\{\max_{i\neq t}f(x)_i-f(x)_t,0\}$

此后提出了其改版弹性网络攻击(EAD)，其优化目标多了一项：

$x^*=\underset{x}{\operatorname*{argmin}}\left\{\|x-x_0\|_2^2+\beta\|x-x_0\|_1+cg(x)\right\}$

$\frac{\partial f(x)}{\partial x_{(i)}}\approx\frac{f(x+he_i)-f(x-he_i)}{2h},$

大多数基于梯度的攻击方法属于上述两个子类别，但也有其他类型的基于梯度的攻击方法

二、基于分数的攻击（Score-Based Attack）

在黑盒（black box）场景下，攻击者无法获取目标模型的信息（包括网络结构以及梯度）

基于分数的攻击方法可以得知目标模型的输出logits，其不需要访问梯度，而是根据目标模型的输出分数 $f(x)_i$ 执行对抗性攻击。

2.1基于梯度逼近的方法（Gradient-Approximation Based Methods）

当梯度无法获取的时候，基于梯度的攻击遍无法开展，这类方法通过逼近梯度或者梯度符号的方式进行攻击

基于零阶优化的攻击(ZOO)使用有限差分方法来近似输入的损失梯度。然后应用C&W攻击生成一个对抗性示例。使用下式估计梯度：

$\frac{\partial f(x)}{\partial x_{(i)}}\approx\frac{f(x+he_i)-f(x-he_i)}{2h}$

这里 $e_i$ 是第 $i$ 维度为1的标准基向量，也就是

$\begin{bmatrix} e_1\\ e_2 \\ ... \\ e_n \end{bmatrix}=E_n= \begin{bmatrix} 1 & & & \\ & 1& & \\ & & 1& \\ & & & 1 \end{bmatrix}$

其本质使用拉格朗日中值定理，前提为导函数尽量连续且变化不大，可以用中间某一点的值近似导数值.

三、基于决策的攻击（Decision-Based Attack）

更进一步情况，如果只能得知目标模型输出的类别

3.1基于转移的攻击（Transfer-Based Attacks）

和知识蒸馏有异曲同工的功效，基于目标模型\教师模型训练的替代模型\学生模型有许多相似之处，对替代模型有效的攻击对目标模型往往也有效果；基于这种思路衍生出许多攻击方法

3.2基于随机游走的攻击（Random-Walk Based Attacks）

以下提出了一种基于边界的随机游走攻击，边界攻击的性能可与最先进的白盒攻击相媲美

从提案分布中采样过程为：

从正态分布中采样 $\boldsymbol{\eta}^{t}\sim\mathcal{N}(\mathbf{0},\boldsymbol{I})$

裁剪 $\tilde{x}^{t-1} + \eta^{t} \in D$ 使其落入可行域，同时满足 $\|\eta^t\|_2 = \delta \cdot d(x,\tilde{x}^{t-1})$ ，其中 $d(\cdot)$ 表示距离

投影 $\boldsymbol{\eta}^t$ 使得满足 $d(x,\tilde{x}^{t-1}+\eta^{t})=d(x,\tilde{x}^{t-1})$

移入可行域 $\tilde{x}^{t-1}+\eta^{t}\in\mathcal{D}$ 并且满足 $d(x,\tilde{x}^{t-1})-d(x,\tilde{x}^{t-1}+\eta^{t})=\epsilon\cdot d(x,\tilde{x}^{t-1})$

3.3基于优化的攻击（Optimization-Based Attacks）

最近的研究人员发现，PGD和C&W损失都是不明确的，相反，我们需要将问题重新定义为寻找对抗性示例的最佳方向θ。

仔细看来，PGD优化方向为损失上升的最快方向，然而并不是错分类最快的方向；找到一个准确的方向对攻击而言会显得更加高效。

对于给定样本 $x_0$ ，优化目标定义为 $g(\theta)=\arg\min_{\lambda>0}\left(f(x_0+\lambda\frac{\theta}{\|\theta\|})\neq y_0\right)$

最小化这个目标也就是 $\theta^*=\arg\min_{\theta}g(\theta)$

优化目标含义为朝 $\theta$ 单位向量方向移动 $\lambda$ 使得错误分类，最小的 $\lambda$ （也就是步长）对应 $\theta^*$ 即为最高效的方向。

$g(\theta)$ 的梯度没有办法直接求，但可以通过二分搜索计算 $g(\theta)$ 的函数值，因此可以使用标准的零阶优化求解器进行求解。

在OPT攻击中，使用随机梯度豁免 (RGF)方法(Nesterov and Spokoiny 2017)来解决该问题。后来产生了改进方法Sign-OPT。

标签：基于,Based,攻击,梯度,Adversarial,优化,方法,method
From： https://blog.csdn.net/a2333333_/article/details/140521956