首页 > 其他分享 >[论文阅读] General Image-to-Image Translation with One-Shot Image Guidance

[论文阅读] General Image-to-Image Translation with One-Shot Image Guidance

时间:2024-11-12 20:46:22浏览次数:1  
标签:Shot 参考 Image General VCT 图像 方法 分支

写在前面

原文:https://arxiv.org/abs/2307.14352
GitHub:https://github.com/CrystalNeuro/visual-concept-translator
关键词:I2I
阅读理由:学习他们的实验方法
前置知识:PTI多概念反转multi-concept inversion

速览

WHY

当前方法缺乏保留内容或有效翻译视觉概念的能力,因此无法将想要的视觉概念整合到现有的图像中。针对这一问题,该文提出一种视觉概念转换器(VCT)的新框架,该框架具有仅通过一张参考图即可保留源图像内容和翻译视觉概念的能力

WHAT

包括两个过程:CCI和CCF。
CCI:通过PTI和MCI来提取内容和概念(contents and concepts)
CCF:采用双分支结构将提取的信息聚合以获得目标图像
优势:仅给定一个参考图,VCT就可以完成一系列通用的I2I任务并取得出色的结果

HOW

PTI和MCI
双分支去噪结构

方法

整体框架

1
如图所示,整个框架包括CCI和CCF两个过程
CCI:使用两种方法从源图像和参考图中提取内容和概念,并将其转换为可学习的嵌入(learnable embeddings)
CCF:采用双分支去噪结构,包括主分支和内容匹配分支。两个分支从相同的初始噪声(由源图像使用DDIM逆向生成)开始。内容匹配分支重建源图像并提取注意力映射以通过注意力控制机制来引导主要过程。主分支收集所有信息来得到最终的目标图像

CCF

  • ϵ空间融合 ϵ Space Fusion
    2

对于两个不同的文本嵌入 vsrc 和 vref,他们分别产生两种不同的噪声预测 ϵsrc和 ϵref。
ϵsrc=ϵθ(zt,t,vsrc), ϵref=ϵθ(zt,t,vref)

根据分类器引导和无分类器引导的结论,每个扩散步骤中的噪声预测可以看作是为分数估计函数。
ϵθ(zt,t,vsrc)≈−σt∇ztlogp(zt|v)

独立的文本嵌入vsrc和vref可以在ϵ空间中融合,生成包含源图像和参考图像某些属性的图像。
˜ϵθ(zt,t,vsrc,vref)=w⋅ϵsrc+(1−w)⋅ϵref)
其中,w是平衡两项的超参数权重。

  • 双分支去噪结构 Dual stream denoising architecture
    3
    初始噪声Xt由DDIM Inversion对源图像进行反演得到。
    内容匹配分支旨在提取文本嵌入和注意力映射————他们将用于主分支并行的去噪步骤
    通过内容匹配分支,我们得到了源图像的嵌入和结构信息

CCI


实验

定性实验

在通用I2I方面:

  • 同一组源图像与参考图像,不同的方法比较:
    基于GAN方法的TuiGAN、PhotoWCT
    基于扩散模型的SD、TI、Ptp
    9

  • VCT方法在不同组源图像与参考图像下的表现
    此外,为了评估所提出的VCT的强概念翻译能力,保持内容图像固定,并改变不同的参考图像。不同参考图像的生成结果表明了良好的内容保留和概念翻译能力。
    8

  • 与一次性基准Paint-by-example和ControlNet比较:
    7

在图像风格迁移方面:

  • 与不同艺术风格下的SOTA方法进行比较:
    基于GAN的TuiGAN、PhotoWCT、ArtFlow
    基于扩散方法的SD、TI、Ptp
    6

  • VCT方法在不同组源图像和参考图像下的表现以及相反实验(值得学习)
    5

定量实验

遵循StyTR2的相同设置,从不同翻译任务中随机选择800个生成图像进行定量比较。将提出的方案与最先进的方法Artflow、CAST、InST、StyleFormer和StyTR2进行了对比。
使用Learned Perceptual Image Patch Similarity (LPIPS)来评估输出与源图像之间的差异,以及CLIP分数来评估输出与参考图像之间的差异。结果显示VCT方法可以达到最低的LPIPS值并且性能最佳,获得最高CLIP分数
11

消融实验

12

  • 通过移除MCI,我们使用单词“狗”来生成我们的管道中参考嵌入vref,在此过程中生成的结果不是参考图像中的特定的狗。
  • 通过移除PTI,内容匹配分支无法重建内容图像,因为DDIM采样轨迹不一致。
  • 通过移除AC,结果不能保留内容图像的结构。

所以,VCT可以通过使用所有提出的组件来获得最佳的生成输出。这更好地保留了内容图像的结构和语义布局,并且符合参考图像。

我的总结

该论文的实验方法和思路特别好,值得学习

  1. 定性实验
    在A方面的比较:
    同组图像不同方法
    目标方法在不同图像下的表现
    与基准的比较
    相反实验
    在B方面的比较:
    ......

  2. 定性试验

  3. 消融实验
    注意要说明缺少哪一种方法会有什么影响,每一条说明之后最后再来个总结——所以我们的实验方法缺一不可。
    要有说服力!!

标签:Shot,参考,Image,General,VCT,图像,方法,分支
From: https://www.cnblogs.com/lichunlei/p/18542621

相关文章

  • [论文阅读] ZePo: Zero-Shot Portrait Stylization with Faster Sampling
    写在前面原文:ZePoGitHub:GithubZePo关键词:肖像风格化、扩散模型、零样本快速生成阅读理由:对扩散模型的改进,可以实现零样本快速生成图像,学习一下思路以及实验设计前置知识:LCM以及GithubLCM(找时间写一下),可参考LCM&CM,一致性蒸馏、图像质量评价速览WHY扩散模型的逐步去噪过程......
  • 图片批量处理工具 Light Image Resizer v7.0.9 注册码
    想要轻松压缩图片,提升工作效率?LightImageResizer中文便携正式版是您的理想选择。这款图片无损压缩工具让您能够快速调整图片大小,批量转换图像格式,一站式处理图片需求。该版本已内置注册码,可以使用全部功能。软件截图:使用说明:1、将压缩文件解压到固定位置,不要随意移动。......
  • Bracketing Image Restoration and Enhancement with High-Low Frequency Decompositi
    paper通过密集连接的小卷积核实现细节特征(高频特征提取)提取importtorch.nnasnnclassDense(nn.Module):def__init__(self,in_channels):super(Dense,self).__init__()#self.norm=nn.LayerNorm([in_channels,128,128])#Assuminginputsi......
  • 【PIL】Torch.tensor和PIL.Image之间互相转换
    A.格式转换过程fromPILimportImageimportnumpyasnpimportmatplotlib.pyplotaspltimporttorchfromtorchvisionimporttransformsimg=Image.open("test.png")#查看shapeprint(np.array(img).shape)#得到(936,1809,4),如果要转化成神经网络可读的......
  • OpenAI 再发 Sora 新短片,传 Sora 两周内推出;李飞飞团队出品空间智能版 ImageNet丨 RTE
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编......
  • 《Consensus-Aware Visual-Semantic Embedding for Image-Text Matching》中文校对版
    文章汉化系列目录文章目录文章汉化系列目录摘要关键词引言2相关工作2.1基于知识的深度学习2.2图文匹配3共识感知的视觉-语义嵌入3.1利用共识知识增强概念表示3.2共识感知表示学习3.3训练和推理4实验4.1数据集和设置4.2实现细节4.3与最新技术的比较4.4消......
  • 图像处理实验二(Image Understanding and Basic Processing)
            ......
  • ffmpeg General Assembly
    TheensembleofactivemembersiscalledtheGeneralAssembly(GA).TheGeneralAssemblyissovereignandlegitimateforallitsdecisionsregardingtheFFmpegproject.TheGeneralAssemblyismadeupofactivecontributors.Contributorsareconsidered&q......
  • dc-aichat(一款支持ChatGPT+智谱AI+讯飞星火+书生浦语大模型+Kimi.ai+MoonshotAI+豆包A
    dc-aichat一款支持ChatGPT+智谱AI+讯飞星火+书生浦语大模型+Kimi.ai+MoonshotAI+豆包AI等大模型的AIGC源码。全网最易部署,响应速度最快的AIGC环境。PHP版调用各种模型接口进行问答和对话,采用Stream流模式通信,一边生成一边输出。前端采用EventSource,支持Markdown格式解析,支持公式......
  • 从截图到代码:screenshot-to-code开源项目实践指南
    一、运行效果 项目地址:GitHub-abi/screenshot-to-code:Dropinascreenshotandconvertittocleancode(HTML/Tailwind/React/Vue)二、实践步骤1.将项目下载到本地2.获取Anthropic(Claude)密钥或者 OpenAIAPI(chatGPT)密钥(1)OpenAIAPI(chatGPT)密钥......