写在前面
原文:ZePo
GitHub:Github ZePo
关键词:肖像风格化、扩散模型、零样本快速生成
阅读理由:对扩散模型的改进,可以实现零样本快速生成图像,学习一下思路以及实验设计
前置知识:LCM以及GithubLCM(找时间写一下),可参考LCM&CM,一致性蒸馏、图像质量评价
速览
WHY
扩散模型的逐步去噪过程减慢了图像生成速度,为了克服这些限制,提出了一种基于扩散模型的无反转肖像风格化框架
WHAT
基于扩散模型的无反转肖像风格化框架,可以最少通过4步完成内容和风格的融合
HOW
提取特征:采用使用了一致性蒸馏技术的一致性模型可以有效地从噪声图像中提取代表性的一致性特征
特征融合:采用风格增强注意力控制技术(a Style Enhancement Attention Control technique),该技术可以实现在目标图像的注意力空间精细地合并内容和风格特征
去除冗余特征:采用特征融合策略(a feature merging strategy)来整合一致特征中的冗余特征,减少注意力控制的计算量
设置定量定性实验
方法
框架流程介绍:
输入图像,x由编码器编码,在潜在空间内创建一个维度较小的向量z。在潜在空间对z添加噪声得到Zt。丢入LCMs进行一致性特征提取。
在去噪过程中应用提出的SEAC注意力控制机制增强风格特征和去除冗余特征,最后由解码器将我们带回图像空间,产生一个高质量的图像。
去噪过程最少需要4步即可,大大提高了产出速度
亮点
一.一致性特征提取 Consistency Features(蓝色)
给定源图像Xsrc和参考图Xref,预训练的VAE编码器分别将它们编码为潜在代码Zsrc和Zref,之后是一个加噪声的前向过程。最后将噪声隐含代码Ztsrc和Ztref输入到LCMs的噪声预测网络εθ,在εθ的每一个transformer layer l中提取源图像和参考图的特征
二.风格增强注意力控制 Style Enhancement Attention Control
用flˆsrc,flˆref来表示合并的一致性特征。
进入注意力控制机制后,合并的特征分别映射到自注意力模块中的键(KEY)和值(VALUE)特征,SEAC机制的不同之处在于:将源图像和参考图像的键、值特征进行拼接,形成一个统一的键值特征集。另外,对参考图像的键(Kref)乘以一个风格增强系数λ,可以增强风格特征
利用关键特征Ks、Kr与目标图像中的查询特征(Query feature)计算自注意力映射A(a self-attention map A)
最后,A与Vs、Vr相乘即可得到最终的输出结果
(关于查询特征queryfeature)
实验
定性比较
与基于StyleGAN的方法进行对比,包括JoJoGAN、StyleGAN NADA和DynaGAN
与基于扩散模型的方法进行对比,包括InST、VCT
结果如下
定量比较
对现有SOTA方法进行定量比较
这里用到了两种评价方法LPIPs和CLIP
对于定量评估,随机选择10张风格图像和10张内容图像,并为每个基准生成了总共100张样式化图像。ZePo方法在LPIPS和CLIP-IQA指标上均优于其他技术,取得了最佳分数。较低的LPIPS得分表明由保留的内容更优,而较高的CLIP-IQA得分则反映能够合成整体质量更好、视觉吸引力更高的图像的能力。
此外,在基于扩散模型的方法中,ZePo的风格评分最高。
还评估了每种方法所需的微调时间和推理时间。先前的方法需要较长的微调周期,而基于扩散的方法具有较长的推理时间。ZePo框架利用零样本方法消除了额外的微调需求。通过引入Style Enhancement Attention Control,将推理时间减少到约0.6秒,提高了实用性。
消融研究 Ablation Study
消融实验是一种科学研究方法,用于确定一个条件或参数对结果的影响程度。 当研究者提出了一个新的方案或方法时,消融实验通过逐一控制一个条件或参数,来观察结果的变化,以确定哪个条件或参数对结果的影响更大。
-
注意力控制 Attention Control
-
推理步骤 Inference Steps
-
一致性特征 Consistency Features