简介
本文基于文章A Review of Adversarial Attack and Defense for Classification Methods的总结,提供对抗领域的几种常见的攻击方法;
一、基于梯度的攻击(Gradient-Based Attack)
非常经典的一种攻击方式,传统论文采用的攻击方法如FGSM,PGD,BIM,C&W等都是基于梯度的攻击方法
这些方法常基于某个优化指标,通过指标对样本的梯度从而最大最小化指标
1.1基于约束优化公式的方法
这种方法常常是损失引导的
即通过最大化对抗样本的损失使得分类器错误分类
这里的为可行域,为了使得对抗样本合法,图片中常以盒约束(box constraint)限制扰动大小,即,也就是每个通道像素值被限定到0,1之间
这里的为扰动,常用球( ball)约束,也就是扰动的无穷范数(最大值)应小于,即
上述公式可改写为
基于该方式产生了很多非常经典的攻击手段,如FGSM,PGD,BIM都是论文中常用的比较手段
其中投影梯度下降攻击(PGD)是一阶攻击中最强的手段
其本质理解为迭代式的FGSM
1.2基于正则化优化配方的方法
该维度下最经典的算法就是C&W(详细可以看我之前写的这篇),其通过提出目标函数(objective function):
通过求解以下问题生成对抗样本
这是一种目标攻击,功能函数意义为以0为临界判断是否成功攻击
其一定程度上仍是损失引导的,只是同以往的损失函数(交叉熵)定义不同罢了,该功能函数相对于交叉熵来说更为高效
C&W注重攻击是否成功的同时也把扰动大小加入了优化目标,所以往往在相同扰动大小下能有更高的攻击成功率
C&W求解也要用到梯度方法,该方法实际往往会经过更多次的迭代,同时超参数在不同场景下也需要计算出最佳值,这也就造成了其消耗计算资源大,耗时长的问题
当然对其优化目标稍作修改也可以是非目标攻击
此后提出了其改版弹性网络攻击(EAD),其优化目标多了一项:
大多数基于梯度的攻击方法属于上述两个子类别,但也有其他类型的基于梯度的攻击方法
二、基于分数的攻击(Score-Based Attack)
在黑盒(black box)场景下,攻击者无法获取目标模型的信息(包括网络结构以及梯度)
基于分数的攻击方法可以得知目标模型的输出logits,其不需要访问梯度,而是根据目标模型的输出分数执行对抗性攻击。
2.1基于梯度逼近的方法(Gradient-Approximation Based Methods)
当梯度无法获取的时候,基于梯度的攻击遍无法开展,这类方法通过逼近梯度或者梯度符号的方式进行攻击
基于零阶优化的攻击(ZOO)使用有限差分方法来近似输入的损失梯度。然后应用C&W攻击生成一个对抗性示例。使用下式估计梯度:
这里是第维度为1的标准基向量,也就是
其本质使用拉格朗日中值定理,前提为导函数尽量连续且变化不大,可以用中间某一点的值近似导数值.
三、基于决策的攻击(Decision-Based Attack)
更进一步情况,如果只能得知目标模型输出的类别
3.1基于转移的攻击(Transfer-Based Attacks)
和知识蒸馏有异曲同工的功效,基于目标模型\教师模型训练的替代模型\学生模型有许多相似之处,对替代模型有效的攻击对目标模型往往也有效果;基于这种思路衍生出许多攻击方法
3.2基于随机游走的攻击(Random-Walk Based Attacks)
以下提出了一种基于边界的随机游走攻击,边界攻击的性能可与最先进的白盒攻击相媲美
从提案分布中采样过程为:
从正态分布中采样
裁剪使其落入可行域,同时满足,其中表示距离
投影使得满足
移入可行域并且满足
3.3基于优化的攻击(Optimization-Based Attacks)
最近的研究人员发现,PGD和C&W损失都是不明确的,相反,我们需要将问题重新定义为寻找对抗性示例的最佳方向θ。
仔细看来,PGD优化方向为损失上升的最快方向,然而并不是错分类最快的方向;找到一个准确的方向对攻击而言会显得更加高效。
对于给定样本,优化目标定义为
最小化这个目标也就是
优化目标含义为朝单位向量方向移动使得错误分类,最小的(也就是步长)对应即为最高效的方向。
的梯度没有办法直接求,但可以通过二分搜索计算的函数值,因此可以使用标准的零阶优化求解器进行求解。
在OPT攻击中,使用随机梯度豁免 (RGF)方法(Nesterov and Spokoiny 2017)来解决该问题。后来产生了改进方法Sign-OPT。
标签:基于,Based,攻击,梯度,Adversarial,优化,方法,method From: https://blog.csdn.net/a2333333_/article/details/140521956