首页 > 其他分享 >[Paper Reading] GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusio

[Paper Reading] GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusio

时间:2024-03-18 23:55:43浏览次数:22  
标签:Diffusion diffusion Towards GLIDE CLIP text guidance noise

GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

GLIDE(Guided Language to Image Diffusion for Generation and Editing)
时间:22/03
机构:OpenAI

TL;DR

本文研究使用Diffusion Model做图像生成过程,如何更好地加入conditional信息。主要尝试两种方法: CLIP-guidance, Classifier-free guidance,并且证明了后者效果更佳。文本是后续DALLE2的重要baseline。

Method

Classifier-free guidance

不同于classifier guidance直接将text信息c加入noise prediction每一步进行引导,classifier-free方法直接将c作为先验输入模型。另外,部分text/label信息替换为空,以防止diffusion生成图像过程过度依赖于text/label信息。s表示替换的比例(比如,s=1时就完全不替换,s=0.5时表示替换一半为空序列,文中超参数是替换了20%为空序列)

这个做法现在看好像很简单,不过之前给diffusion加condition不太容易,参考本文对比的ADM方法,使用classifier guidance需要在每一步使用分类器进行类别引导,非常麻烦参考

CLIP guidance

个人理解:diffusion model的reverse process每一步扩散都是在一个正态分布的mean附近采样,而CLIP guidance在这个mean附近增加一个扰动,该扰动与 f(x)和g(c)点积的梯度 有关。
直观的motivation:一些利用CLIP将文本特征融合到diffusion model中的方法,通常是对diffusion model reverse process过程中加过噪声的图像进行特征抽取,而CLIP在训练过程见到的却是清晰无噪的图像样本,这导致reserse process时图像与文本的特征并不是同分布,所以这类方法同常比较依赖数据增强来弥补这种分布差异。而本文reverse process过程加入CLIP guidance之后,不仅增加了text的condition,还增加了noise image的condition先验,缓解了该问题。上述这么处理也只能让diffusion model训练过程aware CLIP的image与text encoder。所以,后面作者提到又重新训练CLIP,让CLIP重新学习noise image的分布,称之为noise CLIP。

网络

整体网络结构参考OpenAI 21年一篇文章ADM,根据作者描述,使用两阶段的Diffusion model,第一阶段扩散生成64x64分辨率的图像,第二阶段是一个64 -> 256的上采样扩散模型。text信息使用了classifier-free方法进行编码训练,这样模型在输入空condition情况下也能正常工作。多模态信息融合使用上CLIP guidance方法(也叫noise CLIP)。

Experiment

![](/i/l/?n=24&i=blog/1067530/202403/1067530-20240318231144898-288521397.png 600x600)

总结与发散

类似于stable diffusion(同期工作,SD是21年12月放出),特别是加condition的方式,不过还没有像stable diffusion那样直接在latent space扩散,而是使用低分辨率DM,再使用提升分辨率DM。另外,noise CLIP的做法听起来比较make sense。

相关链接

ADM
如何评价OpenAI的工作GLIDE? - CVHub的回答 - 知乎
https://www.zhihu.com/question/507688429/answer/2829764157

资料查询

折叠Title FromChatGPT(提示词:XXX)

标签:Diffusion,diffusion,Towards,GLIDE,CLIP,text,guidance,noise
From: https://www.cnblogs.com/fariver/p/18080262

相关文章

  • Ai绘画工具,Stable Diffusion Lora使用攻略
    一、Lora是什么LoRA,英文全称Low-RankAdaptationofLargeLanguageModels,直译为大语言模型的低阶适应,这是微软的研究人员为了解决大语言模型微调而开发的一项技术。可以理解为Stable-Diffusion中的一个插件,仅需要少量的数据就可以进行训练的一种模型。在生成图片时,LoRA......
  • diffusion常见VAE使用及其训练
    kl-f8-VAELatentDiffusionModels包含很多Kl8/4...的VAE,这些VAE可以使用自己的数据集进行预训练:所用损失函数: L1+LPIPS网址:GitHub-CompVis/latent-diffusion:High-ResolutionImageSynthesiswithLatentDiffusionModelsf8-ft-EMA、f8-ft-MSE没有发现训练代......
  • 教程|腾讯云高性能应用服务(HAI)搭建Stable Diffusion 文生图API
    本次我们使用腾讯云高性能应用服务HAI体验快速搭建并使用AI模型StableDiffusion,实现思路如下:提前通过高性能应用服务HAI部署成功StableDiffusion应用。基于部署好的应用,利用体验JupyterLab进行StableDiffusionAPI的部署。前提在部署API服务之前,请确保......
  • 1秒AI出图的时代来了!Stable Diffusion WebUI Forge+SVD整合包
    速度快N倍!StableDiffusionWebUIForge整合包要说今年绘画圈最大的新秀那妥妥的就StableDiffution本次更新的StableDiffusionWebUIForge整合包+SVD比之前推送的更加智能、快速和简单有多简单呢?这么说吧之前的版本需要初中生级别现在的的幕后网整合包加强版小......
  • [基础] Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion M
    名称StableDiffusion,High-ResolutionImageSynthesiswithLatentDiffusionModelsTL;DR这篇文章介绍了一种名为潜在扩散模型(LatentDiffusionModels,LDMs)的新型高分辨率图像合成方法。LDMs通过在预训练的自编码器的潜在空间中应用扩散模型,实现了在有限计算资源下训练高......
  • 用免费GPU部署自己的stable-diffusion-学习笔记
    最近由于工作需要,开始学习AI+大模型,零基础,听从同事的推荐报名参加了一个免费学习团队,本文是整理的一些学习笔记。课程是趋动云提供支持的,在注册时赠送了足够学习使用的188算力。项目在趋动云上可以直接快速简洁地部署起来,不用自己配置环境、安装软件。教程是傻瓜式的,跟着步骤一......
  • Adaptive Diffusion in Graph Neural Networks论文阅读笔记
    AdaptiveDiffusioninGraphNeuralNetworks论文阅读笔记Abstract​ 最近提出了图扩散卷积(GDC),利用广义图扩散来扩展传播邻域。然而,GDC中的邻域大小是通过在验证集上进行网格搜索来手动对每个图进行调整的,这使得其泛化实际上受到了限制。为了解决这个问题,我们提出了自适应扩散......
  • 【DataWhale学习】用免费GPU线上跑StableDiffusion项目实践
    用免费GPU线上跑SD项目实践​DataWhale组织了一个线上白嫖GPU跑chatGLM与SD的项目活动,我很感兴趣就参加啦。之前就对chatGLM有所耳闻,是去年清华联合发布的开源大语言模型,可以用来打造个人知识库什么的,一直没有尝试。而SD我前两天刚跟着B站秋叶大佬和Nenly大佬的视频学习过......
  • Stable Diffusion 学习笔记
     对于diffusion的原始论文的理解参考,https://www.bilibili.com/video/BV18a4y1T75X/?p=2&spm_id_from=pageDriver&vd_source=1eb6e5015a1f70daa97080d8ee786d5dhttps://www.bilibili.com/video/BV1KC411Y7AF?p=2&vd_source=1eb6e5015a1f70daa97080d8ee786d5d 之前生成网络,G......
  • C# danbooru Stable Diffusion 提示词反推 Onnx Demo
    目录说明效果模型信息项目代码下载 C#danbooruStableDiffusion提示词反推OnnxDemo说明模型下载地址:https://huggingface.co/deepghs/ml-danbooru-onnx效果模型信息Model Properties-----------------------------------------------------------------......