首页 > 其他分享 >论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》

论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》

时间:2023-04-12 23:23:09浏览次数:62  
标签:training methods semi text boldsymbol mid 对抗性 theta mathrm

论文信息

论文标题:Adversarial training methods for semi-supervised text classification
论文作者:Taekyung Kim
论文来源:ICLR 2017
论文地址:download 
论文代码:download
视屏讲解:click

1 背景

1.1 对抗性实例(Adversarial examples)

  • 通过对输入进行小扰动创建的实例,可显著增加机器学习模型所引起的损失
  • 对抗性实例的存在暴露了机器学习模型的脆弱性和局限性,也对安全敏感的应用场景带来了潜在的威胁;

  

1.2 对抗性训练

  训练模型正确分类未修改示例和对抗性示例的过程,使分类器对扰动具有鲁棒性

  目的:

    • 正则化手段,提升模型的性能(分类准确率),防止过拟合
    • 产生对抗样本,攻击深度学习模型,产生错误结果(错误分类)
    • 让上述的对抗样本参与的训练过程中,提升对对抗样本的防御能力,具有更好的泛化能力
    • 利用 GAN 来进行自然语言生成 有监督问题中通过标签将对抗性扰动设置为最大化

1.3 虚拟对抗性训练

  将对抗性训练扩展到半监督/无标记情况

  使模型在某实例和其对抗性扰动上产生相同的输出分布

2 方法

2.1 整体框架

  

  

  基本思想:扩展对抗性训练/虚拟对抗性训练至文本分类任务和序列模型

  基本思路:

  • 对于文本分类任务,由于输入是离散的,且常表示为高维one-hot向量,不允许无穷小的扰动,因此将扰动施加于词嵌入中;由于受干扰的嵌入不能映射至某个单词,本文中训练策略仅作为通过稳定分类函数来正则化文本分类器的方法,不能防御恶意扰动;
  • 施加扰动于规范化的词嵌入中,设置对抗性损失/虚拟对抗性损失,增强模型分类的鲁棒性;

2.2 方法介绍

  将离散单词输入转化为连续向量,定义单词嵌入矩阵:

     $\mathbb{R}^{(K+1) \times D}$

  其中 $K$ 指代单词数量,第 $K+1$ 个单词嵌入作为序列 结束($eos$)令牌

  设置对应时间步长的离散单词为 $w^{(t)}$  ,单词嵌入为 $v^{(t)}$ 

  针对文本分类问题使用 LSTM 模型或双向 LSTM 模型 由于扰动为有界范数,模型在对抗性训练过程中可能 通过 “学习具有较大范数的嵌入使扰动变得不重要” 的病态解决方案,因此需将嵌入进行规范化:

    $\overline{\boldsymbol{v}}_{k}=\frac{\boldsymbol{v}_{k}-\mathrm{E}(\boldsymbol{v})}{\sqrt{\operatorname{Var}(\boldsymbol{v})}} \text { where } \mathrm{E}(\boldsymbol{v})=\sum_{j=1}^{K} f_{j} \boldsymbol{v}_{j}, \operatorname{Var}(\boldsymbol{v})=\sum_{j=1}^{K} f_{j}\left(\boldsymbol{v}_{j}-\mathrm{E}(\boldsymbol{v})\right)^{2}$

  其中 $f_{i}$ 表示第 $i$ 个单词的频率,在所有训练示例中进行计算。

2.2.1 对抗性训练

  对抗性训练尝试提高分类器对小的、近似最坏情况扰动的鲁棒性——使分类器预测误差最大

  代价函数:

    $-\log p\left(y \mid \boldsymbol{x}+\boldsymbol{r}_{\mathrm{zd} v} ; \boldsymbol{\theta}\right) \text { where } \boldsymbol{r}_{\mathrm{ud} v}-\underset{\boldsymbol{r}, \mid \boldsymbol{r} \| \leq \epsilon}{\arg \min } \log p(y \mid \boldsymbol{x}+\boldsymbol{r} ; \hat{\boldsymbol{\theta}})$

  其中 $r$ 为扰动, $\widehat{\theta}$ 为分类器当前参数的常数集,即表明构造对抗性实例的过程中不应该进行反向传播修改参数

  对抗性扰动 $r$  的生成:通过线性逼近得到

    $\boldsymbol{r}_{\mathrm{adv}}=-\epsilon \boldsymbol{g} /\|\boldsymbol{g}\|_{2} \text { where } \boldsymbol{g}=\nabla_{\boldsymbol{x}} \log p(y \mid \boldsymbol{x} ; \hat{\boldsymbol{\theta}})$

2.2.2 虚拟对抗性训练

  将对抗性训练应用于半监督学习——使分类器预测的输出分布差距最大

  额外代价:

    $\begin{array}{l}\operatorname{KL}\left[p(\cdot \mid \boldsymbol{x} ; \hat{\boldsymbol{\theta}}) \mid p\left(\cdot \mid \boldsymbol{x}+\boldsymbol{r}_{\mathrm{v} \text {-adv }} ; \boldsymbol{\theta}\right)\right] \\\text { where } \boldsymbol{r}_{\mathrm{v} \text {-adv }}=\underset{\boldsymbol{r},\|\boldsymbol{r}\| \leq \ell}{\arg \max } \mathrm{KL}[p(\cdot \mid \boldsymbol{x} ; \hat{\boldsymbol{\theta}}) \| p(\cdot \mid \boldsymbol{x}+\boldsymbol{r} ; \hat{\boldsymbol{\theta}})]\end{array}$

  对抗性扰动设置:

    $\boldsymbol{r}_{\mathrm{adv}}=-\epsilon \boldsymbol{g} /\|\boldsymbol{g}\|_{2} \text { where } \boldsymbol{g}=\nabla_{\boldsymbol{s}} \log p(y \mid \boldsymbol{s} ; \hat{\boldsymbol{\theta}})$

  对抗性损失:

    $L_{\mathrm{adv}}(\boldsymbol{\theta})=-\frac{1}{N} \sum_{n=1}^{N} \log p\left(y_{n} \mid \boldsymbol{s}_{n}+\boldsymbol{r}_{\mathrm{adv}, n} ; \boldsymbol{\theta}\right)$

  其中 $N$ 为标记样本的数量

  虚拟对抗性扰动设置:

    $\boldsymbol{r}_{\mathrm{v} \text {-adv }}=\epsilon \boldsymbol{g} /\|\boldsymbol{g}\|_{2} \text { where } \boldsymbol{g}=\nabla_{\boldsymbol{s}+\boldsymbol{d}} \mathrm{KL}[p(\cdot \mid \boldsymbol{s} ; \hat{\boldsymbol{\theta}}) \mid p(\cdot \mid \boldsymbol{s}+\boldsymbol{d} ; \hat{\boldsymbol{\theta}})]$

  其中 $d$ 为小随机向量,实际通过有限差分法和幂迭代计算虚拟对抗性扰动

  虚拟对抗性训练损失:

    $L_{\mathrm{V} \text {-adv }}(\boldsymbol{\theta})=\frac{1}{N^{\prime}} \sum_{n^{\prime}=1}^{N^{\prime}} \mathrm{KL}\left[p\left(\cdot \mid \boldsymbol{s}_{n^{\prime}} ; \hat{\boldsymbol{\theta}}\right) \mid p\left(\cdot \mid \boldsymbol{s}_{n^{\prime}}+\boldsymbol{r}_{\mathrm{v}-\mathrm{ndv}, n^{\prime}} ; \boldsymbol{\theta}\right)\right]$

  其中 $N$ 为标记/未标记样本的数量之和

3 总结

  略

4 其他

  • 基于梯度的攻击:    FGSM(Fast Gradient Sign Method)  PGD(Project Gradient Descent)  MIM(Momentum Iterative Method)
  • 基于优化的攻击:    CW(Carlini-Wagner Attack)
  • 基于决策面的攻击:  DEEPFOOL

标签:training,methods,semi,text,boldsymbol,mid,对抗性,theta,mathrm
From: https://www.cnblogs.com/BlairGrowing/p/17311293.html

相关文章

  • ASEMI代理AD9833BRMZ-REEL原装ADI车规级AD9833BRMZ-REEL
    编辑:llASEMI代理AD9833BRMZ-REEL原装ADI车规级AD9833BRMZ-REEL型号:AD9833BRMZ-REEL品牌:ADI/亚德诺封装:MSOP-10批号:2023+引脚数量:10安装类型:表面贴装型AD9833BRMZ-REEL汽车芯片AD9833BRMZ-REEL特征数字可编程频率和相位3V时的12.65mW功耗0MHz至12.5MHz输出频率范围28位分辨率:0.1......
  • Semi-prime H-numbers UVA - 11105
     所有形如4n+1(n为非负整数)的数叫H数。定义1是唯一的单位H数,H素数是指本身不是1,且不能写成两个不是1的H数的乘积。H-半素数是指能写成两个H素数的乘积的H数(这两个数可以相同也可以不同)。 例如,25是H-半素数,但125不是。输入一个H数h(h≤1000001),输出1~h之间有多少个H-半素数。......
  • 迁移学习()《Attract, Perturb, and Explore: Learning a Feature Alignment Network fo
    论文信息论文标题:Attract,Perturb,andExplore:LearningaFeatureAlignmentNetworkforSemi-supervisedDomainAdaptation论文作者:TaekyungKim论文来源:2020ECCV论文地址:download 论文代码:download视屏讲解:click1摘要提出了目标域内的域内差异问题。提......
  • AD633JRZ-ASEMI代理ADI亚德诺AD633JRZ车规级芯片
    编辑-ZAD633JRZ芯片参数:型号:AD633JRZ总误差:±1%标度电压错误:±0.25%电源干扰:±0.01%输出偏移电压:±5mV小信号带宽:1MHz斜率:20V/µs沉降时间达到1%:2µs宽带噪声:1mVrms输出电压摆幅:±11V短路电流:30mA信号电压范围:±10V差动电阻:10MΩ额定性能电源电压:±15V  AD63......
  • ASEMI代理ADI亚德诺AD8061ARTZ-REEL7车规级芯片
    编辑-ZAD8061ARTZ-REEL7芯片参数:型号:AD8061ARTZ-REEL7−3dB小信号带宽:320MHz−3dB大信号带宽:280MHz0.1dB平坦度的带宽:30MHz斜率:650V/μs总谐波失真:-77dBc输入电压噪声:8.5nV/√Hz输入电流噪声:1.2pA/√Hz输入偏移电压:1mV输入偏置电流:3.5uA输入失调电流:0.3±uA输入电阻......
  • ASEMI代理AD8606ACBZ-REEL7原装ADI车规级AD8606ACBZ-REEL7
    编辑:llASEMI代理AD8606ACBZ-REEL7原装ADI车规级AD8606ACBZ-REEL7型号:AD8606ACBZ-REEL7品牌:ADI/亚德诺封装:WLCSP-8批号:2023+引脚数量:8安装类型:表面贴装型AD8606ACBZ-REEL7汽车芯片AD8606ACBZ-REEL7特征特征低偏移电压:最大65μV低输入偏置电流:最大1pA低噪声:8nV/√Hz......
  • ASEMI代理AD8606ACBZ-REEL7原装ADI车规级AD8606ACBZ-REEL7
    编辑:llASEMI代理AD8606ACBZ-REEL7原装ADI车规级AD8606ACBZ-REEL7型号:AD8606ACBZ-REEL7品牌:ADI/亚德诺封装:WLCSP-8批号:2023+引脚数量:8安装类型:表面贴装型AD8606ACBZ-REEL7汽车芯片AD8606ACBZ-REEL7特征特征低偏移电压:最大65μV低输入偏置电流:最大1pA低噪声:8nV/√Hz宽带:10MHz高开......
  • ASEMI代理AD8603AUJZ-REEL7原装ADI车规级AD8603AUJZ-REEL7
    编辑:llASEMI代理AD8603AUJZ-REEL7原装ADI车规级AD8603AUJZ-REEL7型号:AD8603AUJZ-REEL7品牌:ADI/亚德诺封装:SOT-23-5批号:2023+安装类型:表面贴装型引脚数量:5类型:车规级芯片AD8603AUJZ-REEL7特性低失调电压:50μV(最大值)低输入偏置电流:1pA(最大值)单电源供电:1.8V至5V......
  • 迁移学习《Cluster-Guided Semi-Supervised Domain Adaptation for Imbalanced Medica
    论文信息论文标题:Cluster-GuidedSemi-SupervisedDomainAdaptationforImbalancedMedicalImageClassification论文作者:S.Harada,RyomaBise,KengoAraki论文来源:ArXiv2March2023论文地址:download 论文代码:download视屏讲解:click1摘要一种半监督域自适应方法,......
  • ASEMI代理AD8400ARZ10-REEL原装ADI车规级AD8226ARZ-R7
    编辑:llASEMI代理AD8400ARZ10-REEL原装ADI车规级AD8226ARZ-R7型号:AD8400ARZ10-REEL品牌:ADI/亚德诺封装:SOIC-8批号:2023+引脚数量:8安装类型:表面贴装型AD8400ARZ10-REEL汽车芯片AD8400ARZ10-REEL特征256位可变电阻装置更换1、2或4个电位计1千Ω,10千Ω,50公里Ω,100千......