[!CAUTION]
本篇论文主要是关于AIGC生成人脸的后门攻击,与换脸技术的后门攻击有差异,因此本篇文章主要研究
trigger
的生成部分,后面的实验部分不加以研究。
一、研究动机
目前的后门攻击模型还比较简单,是基于数字像素上的操作,例如增加噪声或者像素补丁,这些攻击已经有很多backdoor defense方法检测,但这些trigger是容易被人眼所观察到的。为此本文从以下两个角度以及 AIGC模型生成trigger, 从潜在空间向量实现后门攻击。
[!NOTE]
- Model Discrimination (Optimization-Based Trigger):使用替代模型通过交叉熵损失寻找
- Data Distribution (Custom Trigger):操控不重要的面部属性
- AIGC :
StyleGAN
,Stable Diffusion
二、BACKDOOR ATTACK
[!TIP]
- 攻击者不知道攻击什么模型
- 攻击者无法访问原始训练数据
2.1 Optimization-Based Trigger
[!NOTE]
通过交叉熵损失找到 trigger, 训练时的数据与原来的模型训练数据没有重复,并且模型架构不同
- poisoned image :在潜在向量中加入trigger通过
G
生成图像 - train stage:使用代替模型进行训练以寻找
trigger
,训练完成后通过scale fator
\(\alpha\) 调整L2 norm
2.2 Custom Trigger
[!TIP]
不需要代替数据以及模型
-
过程实现:
分析
Diverse Fake Face Dataset
的面部属性分布,并且找到长尾分布的属性 :微笑的程度
,年龄
-
工具
face parsing tools
:检测嘴巴的区域范围,用嘴巴占比表示笑的程度
FaceLib
:年龄估算
InterFaceGAN
:属性编辑模型
- 微笑程度与年龄的属性分布
- Smile Trigger
如属性分布图(a)可以发现,生成的假图的 smile distribution 集中在 0-0.025,随着\(\beta_1\)的加大,加入了trigger的poisoned sample与Benign sample的差异拉大。
\[t = \beta_1 \times smlie \] 在后面的实验中也证明了,随着\(\beta_1\)的加大,攻击效果越好
-
Age Trigger
如属性分布图(b)所示,Benign sample的年龄分布在0-20岁的概率较低,
-
Triggers
三、数据
-
图像数据
-
真实人脸与合成人脸数据:
Diverse Fake Face Dataset
真实图像:
CelebA
,FFHQ
生成图像模型:
PGGAN
,StyleGAN
-
代替数据:
真实图像:
FFHQ
生成图像模型:
StyleGAN
-
-
模型
- 检测模型:
EfficientNet-B3
- 代替模型:
ResNet-18
- 检测模型:
-
评价指标
BA
ASR