写在前面
原文:https://arxiv.org/abs/2307.14352
GitHub:https://github.com/CrystalNeuro/visual-concept-translator
关键词:I2I
阅读理由:学习他们的实验方法
前置知识:PTI、多概念反转multi-concept inversion
速览
WHY
当前方法缺乏保留内容或有效翻译视觉概念的能力,因此无法将想要的视觉概念整合到现有的图像中。针对这一问题,该文提出一种视觉概念转换器(VCT)的新框架,该框架具有仅通过一张参考图即可保留源图像内容和翻译视觉概念的能力
WHAT
包括两个过程:CCI和CCF。
CCI:通过PTI和MCI来提取内容和概念(contents and concepts)
CCF:采用双分支结构将提取的信息聚合以获得目标图像
优势:仅给定一个参考图,VCT就可以完成一系列通用的I2I任务并取得出色的结果
HOW
PTI和MCI
双分支去噪结构
方法
整体框架
如图所示,整个框架包括CCI和CCF两个过程
CCI:使用两种方法从源图像和参考图中提取内容和概念,并将其转换为可学习的嵌入(learnable embeddings)
CCF:采用双分支去噪结构,包括主分支和内容匹配分支。两个分支从相同的初始噪声(由源图像使用DDIM逆向生成)开始。内容匹配分支重建源图像并提取注意力映射以通过注意力控制机制来引导主要过程。主分支收集所有信息来得到最终的目标图像
CCF
- ϵ空间融合 ϵ Space Fusion
对于两个不同的文本嵌入 vsrc 和 vref,他们分别产生两种不同的噪声预测 ϵsrc和 ϵref。
ϵsrc=ϵθ(zt,t,vsrc), ϵref=ϵθ(zt,t,vref)
根据分类器引导和无分类器引导的结论,每个扩散步骤中的噪声预测可以看作是为分数估计函数。
ϵθ(zt,t,vsrc)≈−σt∇ztlogp(zt|v)
独立的文本嵌入vsrc和vref可以在ϵ空间中融合,生成包含源图像和参考图像某些属性的图像。
˜ϵθ(zt,t,vsrc,vref)=w⋅ϵsrc+(1−w)⋅ϵref)
其中,w是平衡两项的超参数权重。
- 双分支去噪结构 Dual stream denoising architecture
初始噪声Xt由DDIM Inversion对源图像进行反演得到。
内容匹配分支旨在提取文本嵌入和注意力映射————他们将用于主分支并行的去噪步骤
通过内容匹配分支,我们得到了源图像的嵌入和结构信息
CCI
实验
定性实验
在通用I2I方面:
-
同一组源图像与参考图像,不同的方法比较:
基于GAN方法的TuiGAN、PhotoWCT
基于扩散模型的SD、TI、Ptp
-
VCT方法在不同组源图像与参考图像下的表现
此外,为了评估所提出的VCT的强概念翻译能力,保持内容图像固定,并改变不同的参考图像。不同参考图像的生成结果表明了良好的内容保留和概念翻译能力。
-
与一次性基准Paint-by-example和ControlNet比较:
在图像风格迁移方面:
-
与不同艺术风格下的SOTA方法进行比较:
基于GAN的TuiGAN、PhotoWCT、ArtFlow
基于扩散方法的SD、TI、Ptp
-
VCT方法在不同组源图像和参考图像下的表现以及相反实验(值得学习)
定量实验
遵循StyTR2的相同设置,从不同翻译任务中随机选择800个生成图像进行定量比较。将提出的方案与最先进的方法Artflow、CAST、InST、StyleFormer和StyTR2进行了对比。
使用Learned Perceptual Image Patch Similarity (LPIPS)来评估输出与源图像之间的差异,以及CLIP分数来评估输出与参考图像之间的差异。结果显示VCT方法可以达到最低的LPIPS值并且性能最佳,获得最高CLIP分数
消融实验
- 通过移除MCI,我们使用单词“狗”来生成我们的管道中参考嵌入vref,在此过程中生成的结果不是参考图像中的特定的狗。
- 通过移除PTI,内容匹配分支无法重建内容图像,因为DDIM采样轨迹不一致。
- 通过移除AC,结果不能保留内容图像的结构。
所以,VCT可以通过使用所有提出的组件来获得最佳的生成输出。这更好地保留了内容图像的结构和语义布局,并且符合参考图像。
我的总结
该论文的实验方法和思路特别好,值得学习
-
定性实验
在A方面的比较:
同组图像不同方法
目标方法在不同图像下的表现
与基准的比较
相反实验
在B方面的比较:
...... -
定性试验
-
消融实验
注意要说明缺少哪一种方法会有什么影响,每一条说明之后最后再来个总结——所以我们的实验方法缺一不可。
要有说服力!!