Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

时间：2024-03-22 20:33:28浏览次数：30

标签：Diffusion DM Imagen Language text 训练 LLM 图像

名称

Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
时间：22/05
机构：Google

TL;DR

发现使用LLM(T5)可以作为text2image任务的text encoder，并且提升LLM模型size相对于提升image DM模型size性价比更高，生成的图像保真度更高，内容也更符合文本的描述。在COCO上FID score达到7.27。另外，作者也提出一种新的名为DrawBench的评测方案。

Method

算法pipeline整体如上图，除了使用LLM提取text特征之外，还使用了以下trick。

Large guidance weight samplers

一些已有工作发现训练DM时增加classifer-free的权重会导致图文一致性变好，但图像保真度变差。作者发现，其根本原因是train-test不一致问题，训练时xt往往会在固定range范围[-1, 1]，但test时生成的xt可能会超出该range，如此迭代下去会生成不自然图像。个人理解，其实是训练过程classifer-free的权重太大，就会比较依赖于text信息，但测试时text分布与训练时分布不一致，导致生成的效果很差。
Dynamic thresholding 解决以上问题比较粗暴的方法是直接将xt截断到[-1, 1]，但是实验表明当classifer-free的权重大到一定程度时还是会出现过饱和或者缺少细节的问题。作者使用Dynamic thresholding的方法，即设定某个百分位pixel value作为指标值s，如果s > 1，则对整体图像norm s。作者表示，这种方案能够比较好的tride-off保真度与图文对齐的整体效果。

Robust cascaded diffusion models

之所以称为cascaded DM是因为作者使用了3个DM，第一个是在64x64图像空间，后续两个分别上采样到256, 1024。除了z_t(text condition)之外，Imagen使用了一种称为noise conditioning augmentation的condition，具体作法是每次采样噪声之前都会随机采样出一个aug_level作为噪声幅度的限制，模型训练或者生成过程中，除了输入z_t与t之外，会将该aug_level也作为先验输入到模型。下面是将低分辨率图像通过DM上采样为高分辨率图像使用DM的训练与采样代码。

模型结构

BaseModel使用LLM作为text encoder提取text embdding，使用UNet作为DM噪声模型，text embedding通过cross attention输入到UNet的各个stage。

Experiment

DrawBench

一种评测机制，主要衡量图像的保真度(fidelity)与图文一致性(image-text alignment)，包含11个类别200个text prompts。真正评测过程需要人工评价者参与打分。

Q: 模型尺寸？=> image DM 64x64: 2B, 256x256: 600M, 1024x1024: 400M； text encoder T5: 4.6B
Q：使用了多少训练数据？
400M内部数据，400M laion公开数据集。

增加text encoder计算量比增加UNet计算量性价比更高

总结与发散

LLM抽出来的text特征竟然能直接给DM作condition使用，没有像CLIP一样专门对应特征空间，应该是DM训练过程自动适应了text embedding特征分布，推理才会起作用。

资料查询

折叠Title

FromChatGPT(提示词：XXX)

标签：Diffusion,DM,Imagen,Language,text,训练,LLM,图像
From： https://www.cnblogs.com/fariver/p/18089343

[基础] DiT: Scalable Diffusion Models with Transformers
名称DiT:ScalableDiffusionModelswithTransformers时间：23/03机构：UCBerkeley&&NYUTL;DR提出首个基于Transformer的DiffusionModel，效果打败SD，并且DiT在图像生成任务上随着Flops增加效果会降低，比较符合scalinglaw。后续sora的DM也使用该网络架构。Method网络结构整......
用免费GPU部署自己的stable-diffusion项目（AI生成图片）
2021年时出现了openAI的DALL，但是不开源。2022年一开年，DALL-E2发布，依然不开源。同年7月，Google公布其Text-to-Image模型Imagen，并且几乎在同一时间段AI图像生成平台Midjourney也进行公测。同年8月，StableDiffusion的发布将AIGC和AI绘画彻底带出了圈。StableDiffusion是......
使用 Keras 的 Stable Diffusion 实现高性能文生图
前言在本文中，我们将使用基于KerasCV实现的StableDiffusion模型进行图像生成，这是由stable.ai开发的文本生成图像的多模态模型。StableDiffusion是一种功能强大的开源的文本到图像生成模型。虽然市场上存在多种开源实现可以让用户根据文本提示轻松创建图像，但Keras......
什么是AI绘画工具Stable Diffusion？如何安装Stable Diffusion？
StableDiffusion秋叶整合包，一键安装StableDiffusion，门槛极低，完全免费，支持Nvidia全系列显卡。来自B站up主秋葉aaaki近期推出的StableDiffusion整合包v4.6版本，能够让零基础用户轻松在本地部署StableDiffusion，适合希望使用AI绘画的朋友。StableDiffusion（SD）是什么?Stab......
Ai绘画工具，Stable Diffusion Lora使用攻略
一、Lora是什么LoRA，英文全称Low-RankAdaptationofLargeLanguageModels，直译为大语言模型的低阶适应，这是微软的研究人员为了解决大语言模型微调而开发的一项技术。可以理解为Stable-Diffusion中的一个插件，仅需要少量的数据就可以进行训练的一种模型。在生成图片时，LoRA......
Editing Factual Knowledge and Explanatory Ability of Medical Large Language Mode
本文是LLM系列文章，针对《EditingFactualKnowledgeandExplanatoryAbilityofMedicalLargeLanguageModels》的翻译。医学大语言模型的编辑事实知识与解释能力摘要1引言2相关工作3方法4实验5结论6局限性摘要模型编辑旨在精确地修改大型语言模型......
Jailbreaking Large Language Models in Few Queries via Disguise and Reconstructio
本文是LLM系列文章，针对《MakingThemAskandAnswer:JailbreakingLargeLanguageModelsinFewQueriesviaDisguiseandReconstruction》的翻译。让他们问答：通过伪装和重建在少数查询中打破大型语言模型的牢笼摘要1引言2背景和问题陈述3LLM微调中的安全偏......
diffusion常见VAE使用及其训练
kl-f8-VAELatentDiffusionModels包含很多Kl8/4...的VAE，这些VAE可以使用自己的数据集进行预训练：所用损失函数： L1+LPIPS网址：GitHub-CompVis/latent-diffusion:High-ResolutionImageSynthesiswithLatentDiffusionModelsf8-ft-EMA、f8-ft-MSE没有发现训练代......
教程|腾讯云高性能应用服务（HAI）搭建Stable Diffusion 文生图API
本次我们使用腾讯云高性能应用服务HAI体验快速搭建并使用AI模型StableDiffusion，实现思路如下:提前通过高性能应用服务HAI部署成功StableDiffusion应用。基于部署好的应用，利用体验JupyterLab进行StableDiffusionAPI的部署。前提在部署API服务之前，请确保......
1秒AI出图的时代来了！Stable Diffusion WebUI Forge+SVD整合包
速度快N倍！StableDiffusionWebUIForge整合包要说今年绘画圈最大的新秀那妥妥的就StableDiffution本次更新的StableDiffusionWebUIForge整合包+SVD比之前推送的更加智能、快速和简单有多简单呢？这么说吧之前的版本需要初中生级别现在的的幕后网整合包加强版小......