[基础] DiT: Scalable Diffusion Models with Transformers

时间：2024-03-21 23:46:05浏览次数：31

标签：Diffusion Transformers Models Scalable embedding DiT latent norm

名称

DiT: Scalable Diffusion Models with Transformers
时间：23/03
机构：UC Berkeley && NYU

TL;DR

提出首个基于Transformer的Diffusion Model，效果打败SD，并且DiT在图像生成任务上随着Flops增加效果会降低，比较符合scaling law。后续sora的DM也使用该网络架构。

Method

网络结构整体参考LDM，只不过将latent diffusion中的UNet替换为ViT，image与latent space之间编解码复用现成的基于卷积的VAE。DiT网络结构如下图所示，作者尝试了多种DiT blocks来编码condition信息，比如，cross-attention, in-context conditioning(直接concat with embeding tokens)，最终发现adaLN-Zero block效果最好。

adaLN-Zero block

adaLN的全称是adaptive layer norm。layer norm是"逐样本"将均值方差替换为可学习参数beta/gamma的方法，而这里adaptive指得是额外学习一个逐channel的参数alpha。Zero指得是将residual连接的前一层MLP的norm中alpha初始值设定为0，起到Identity的作用，个人理解，这么做相当于在网络学习前期去掉了一些层，降低了前期学习复杂度加速收敛。更详细的解释参考论文

Patchify

类似于ViT中的图片切块出embedding的操作，只不过这里专门起了一个名字。如下图所示，DiT的输入尺寸是一个I x I的保留spatial shape的noise latent feature，被切成大小为pxp的patch，再将patch抽成embedding，把所有embedding组成一个序列的tokens。

网络架构

Q: UNet的上采样如何使用Vit实现？
Transformer的Decoder输出序列的长度为I x I x 2，被reshape成为I x I的噪声以及方差。

Experiment

总结与发散

属于LDM上改进工作，将UNet替换为transformer，由于实验结果符合scaling law，比较适合大力出奇迹。

资料查询

折叠Title

FromChatGPT(提示词：XXX)

标签：Diffusion,Transformers,Models,Scalable,embedding,DiT,latent,norm
From： https://www.cnblogs.com/fariver/p/18087204

用免费GPU部署自己的stable-diffusion项目（AI生成图片）
2021年时出现了openAI的DALL，但是不开源。2022年一开年，DALL-E2发布，依然不开源。同年7月，Google公布其Text-to-Image模型Imagen，并且几乎在同一时间段AI图像生成平台Midjourney也进行公测。同年8月，StableDiffusion的发布将AIGC和AI绘画彻底带出了圈。StableDiffusion是......
使用 Keras 的 Stable Diffusion 实现高性能文生图
前言在本文中，我们将使用基于KerasCV实现的StableDiffusion模型进行图像生成，这是由stable.ai开发的文本生成图像的多模态模型。StableDiffusion是一种功能强大的开源的文本到图像生成模型。虽然市场上存在多种开源实现可以让用户根据文本提示轻松创建图像，但Keras......
什么是AI绘画工具Stable Diffusion？如何安装Stable Diffusion？
StableDiffusion秋叶整合包，一键安装StableDiffusion，门槛极低，完全免费，支持Nvidia全系列显卡。来自B站up主秋葉aaaki近期推出的StableDiffusion整合包v4.6版本，能够让零基础用户轻松在本地部署StableDiffusion，适合希望使用AI绘画的朋友。StableDiffusion（SD）是什么?Stab......
阿里ModelScope应用案例-cnblog
信息抽取（实体识别）分词人像抠图摘要生成人体关键点表格搜索文本分类自然语言理解人像卡通化人像增强算法图文检索大模型与Agent文字识别......
Ai绘画工具，Stable Diffusion Lora使用攻略
一、Lora是什么LoRA，英文全称Low-RankAdaptationofLargeLanguageModels，直译为大语言模型的低阶适应，这是微软的研究人员为了解决大语言模型微调而开发的一项技术。可以理解为Stable-Diffusion中的一个插件，仅需要少量的数据就可以进行训练的一种模型。在生成图片时，LoRA......
Editing Factual Knowledge and Explanatory Ability of Medical Large Language Mode
本文是LLM系列文章，针对《EditingFactualKnowledgeandExplanatoryAbilityofMedicalLargeLanguageModels》的翻译。医学大语言模型的编辑事实知识与解释能力摘要1引言2相关工作3方法4实验5结论6局限性摘要模型编辑旨在精确地修改大型语言模型......
Jailbreaking Large Language Models in Few Queries via Disguise and Reconstructio
本文是LLM系列文章，针对《MakingThemAskandAnswer:JailbreakingLargeLanguageModelsinFewQueriesviaDisguiseandReconstruction》的翻译。让他们问答：通过伪装和重建在少数查询中打破大型语言模型的牢笼摘要1引言2背景和问题陈述3LLM微调中的安全偏......
【论文笔记合集】Transformers in Time Series A Survey综述总结
本文作者：slience_me文章目录TransformersinTimeSeriesASurvey综述总结1Introduction2Transformer的组成PreliminariesoftheTransformer2.1VanillaTransformer2.2输入编码和位置编码InputEncodingandPositionalEncoding绝对位置编码AbsolutePosit......
【论文阅读】Autoformer Decomposition Transformers with Auto-Correlation for Long
原始题目：Autoformer:DecompositionTransformerswithAuto-CorrelationforLong-TermSeriesForecasting中文翻译：Autoformer:用于长期序列预测的自相关分解变压器发表时间：2021年平台：AdvancesinNeuralInformationProcessingSystems文章链接：https://proceedings.neuri......
diffusion常见VAE使用及其训练
kl-f8-VAELatentDiffusionModels包含很多Kl8/4...的VAE，这些VAE可以使用自己的数据集进行预训练：所用损失函数： L1+LPIPS网址：GitHub-CompVis/latent-diffusion:High-ResolutionImageSynthesiswithLatentDiffusionModelsf8-ft-EMA、f8-ft-MSE没有发现训练代......