首页 > 其他分享 >DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents

DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents

时间:2024-03-19 23:44:32浏览次数:24  
标签:DM CLIP Generation Text image Prior embedding text

名称

DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents
也叫 UnCLIP
时间:22.04
机构:OpenAI

TL;DR

OpenAI的首篇从CLIP的image embedding生成图像的方法,实验证明这种方法生成的图像能够保留丰富的语义与风格分布。

Method

Prior

Prior模块作用是给定text先验输入,生成image embedding zi。作者尝试了两种方案AR(auto-regressor) or DM(diffusion model)。最终认为基于DM的版本效果更高,效率更高。
基于AR
将image embedding PCA成discrete codes序列,作为AR的回归目标。AR的input是text token与text embeddings。除此之外,训练过程会在输入序列最前方加入text embedding与image embedding之间相似度分数,个人理解是类似于逐样本的Loss权重作用,出发点是图文越匹配的样本对于训练Prior越有帮助。
基于DM
diffusion prior也是基于Transformer实现的(输入输出都是sequence的Decoder-only Transformer,代替DM中的UNet)。input: text, CLIP text embedding, diffusion timestamp, noise image embedding by CLIP encoder,最终目标是预测unnoise的CLIP image embedding。不同于AR Prior将zi与zt相似度作为input sequence,DM Prior挑选zi与zt相似度高的pair来训练。另外,不同与DDPM训练噪声预测模型,DM Prior直接预测去噪之后的image embedding。

Decoder

Decoder还是一个DM,输入image embedding prior,恢复出原图。网络结构主要参考CVPR22的篇论Diffusion Autoencoders,下图是Diffusion AE原文的作法。不同于原文,本文是将GLIDE text embedding与image embeding prior concat到一起,输入到Condition DDIM中。其中,image embedding也做了类似于GLIDE中classifier-free的guidance,即随机去除部分text or image embedding信息。为了提升图像分辨率,又在Decoder之后外挂了两个DM,分辨率64->256->1024。

Experiment

展示了UnCLIP具有较好可插值性(Interpolations),以及分布丰富性(Variations)。下面实验结果也表示了FID等指标也超过之前方法(主要比了GLIDE)。

总结与发散

与LDM不同点:

  1. latent feature生成网络不同:

UnCLIP是通过transformer输入text-condition作为input,扩散出CLIP image embedding(一维)。
LDM把text-condition通过cross attention混合到latent diffusion的UNet中间层,扩散出latent feature(猜测是二维)。

  1. DM Prior的学习目标不同:

UnCLIP是以学习denoise之后的image embedding作为目标
LDM类似于常规DM,以学习噪声为目标。

  1. Decoder不同:

UnCLIP参考Diffusion Autoencoders将DM Prior生成的image embedding作为先验,本质上使用的是DDIM来生成图像。
LDM将直接使用AE的decoder将latent feature一步生成图像。

  1. encoder不同

UnCLIP的image/text embedding是使用CLIP encoder提取的,CLIP encoder是用(image, text)的对比学习训练出来的,两种embedding天然就在同一个latent space
LDM是图像encoder是通过AE的图像重建Loss训练出来的,text embedding是通过外挂language model提取,DM Prior学习过程还得兼顾将两种embedding空间对齐。

相关链接

DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents
Diffusion Autoencoders

资料查询

折叠Title FromChatGPT(提示词:XXX)

标签:DM,CLIP,Generation,Text,image,Prior,embedding,text
From: https://www.cnblogs.com/fariver/p/18082622

相关文章

  • Excel新函数TEXTJOIN太强大了,这些高级用法太实用了
    今天跟大家分享WPS中新函数TEXTJOIN的使用方法和技巧,它不仅仅是一个强大的文本连接函数,还有一些高级用法可以帮助我们快速解决日常难题。TEXTJOIN函数介绍作用:TEXTJOIN函数是文本连接函数,使用分隔符连接列表或文本字符串区域。语法:=TEXTJOIN(分隔符,忽略空白单元格,字符串......
  • Maven Archetype自定义工程模板(Eclipse中,其他IDE同理)
    1.问题在Eclipse中,我们想创建一个web项目,使用web-app脚手架进行创建,但是里面的模板并不是我们想要的比如我想自定义pom.xml里面的内容,设定jdk版本,groupID等等,配置Web项目基本依赖以及我想要设置一个基本的index.jsp(符合基本模板的)和web.xml中设置web-app的版本为3.1......
  • C#,深度好文,精致好码,文本对比(Text Compare)算法与源代码
    VladimirI.Levenshtein一、文本对比的列文斯坦距离(编辑距离)算法在日常应用中,文本比较是一个比较常见的问题。文本比较算法也是一个老生常谈的话题。文本比较的核心就是比较两个给定的文本(可以是字节流等)之间的差异。目前,主流的比较文本之间的差异主要有两大类。一类是基......
  • [Paper Reading] GLIDE: Towards Photorealistic Image Generation and Editing with
    GLIDE:TowardsPhotorealisticImageGenerationandEditingwithText-GuidedDiffusionModelsGLIDE(GuidedLanguagetoImageDiffusionforGenerationandEditing)时间:22/03机构:OpenAITL;DR本文研究使用DiffusionModel做图像生成过程,如何更好地加入conditional信息......
  • Eclipse中xml格式化设置
    1.问题Eclipse中xml文件格式化后,整个一团糟,并不是我们想要的,我们需要自行修改其格式化参数2.解决2.1找到Windows>Preference>XML>XMLFiles>Editor2.2具体参数Linewidth:设置每行宽度Linewidth设定为80到100个字符。Splitmultipleattributeseachonanewli......
  • Eclipse设定自定义格式化(解决java格式化注释中参数挤在一行的问题)
    1.问题在java默认的格式化中,对于注释这一块的格式化,当有多个参数Param,都是挤在一起的,导致十分不美观,我们这时就需要自定义java格式化2.解决2.1找到Java>CodeStyle>Formatter2.2由于Eclipse默认的格式化文件不可以修改,这里我们基于其选择新建一个自定义格式化文件2......
  • 【QT+QGIS跨平台编译】之八十二:【QGIS_Gui跨平台编译】—【错误处理:QgsExpressionCont
    文章目录一、未定义基类QgsExpressionContextGenerator二、错误处理一、未定义基类QgsExpressionContextGenerator报错信息二、错误处理第33行增加:#include"qgsexpressioncontextgenerator.h"......
  • 【GPT总结】Why Can GPT Learn In-Context?
    原文:https://ar5iv.labs.arxiv.org/html/2212.10559概述这篇论文提出了一种新的方法,利用大型预训练语言模型展示了惊人的上下文学习能力。通过少量的示范输入-标签对,它们可以在没有参数更新的情况下预测未见输入的标签。尽管在性能上取得了巨大成功,但其工作机制仍然是一个开放......
  • 安装install.package("devtools")时报错 提示systemfonts,textshaping, ragg, gert依赖
    devtools可用conda,R的install.packages()以及wget等方式安装,这里我采用install.packages()安装,碰到systemfonts,textshaping,ragg,gert几个依赖包的安装错误。install.package("devtools")错误形式与解决,参考:https://www.cnblogs.com/shuaihe/p/17823059.html1.systemfonts解......
  • ffmpeg avformat_alloc_context System.NotSupportedException 不支持所指定的方法
    这个错误报了第二次了,网上搜不到靠谱的解决方案,赶快记录一下。第一个情况:报错如题目System.NotSupportedException不支持所指定的方法第二个情况:如果换autogen版本的话,我是用的5.1.2.3,切换到5.0或者其他版本的话,会提示avformat.59dllnotfound。这个报错根本原因是没找到对......