论文笔记：Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer

时间：2024-05-25 20:30:00浏览次数：28

标签：Diffusion Transformer 高分辨率 Efficient 模型生成图像 DiT Inf

论文链接：[2405.04312] Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer (arxiv.org)

论文代码：THUDM/Inf-DiT: Official implementation of Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer (github.com)

现有图像扩散模型生成的图像的分辨率通常被限制在 1024 ×1024 像素或更低，在生成超高分辨率图像（例如 4096 ×4096）时内存会二次增加，

上采样到更高分辨率的图像的最大挑战是显着的 GPU 内存需求。另外一个问题是如果要将图像完整的输入模型中，会占用的空间。

因此本文提出了一种单向块注意(UniBA)算法，该算法可以显著降低从O(N2)到O(N)的生成空间复杂度，大大提高了最高的可用分辨率。

Methodology

Unidirectional Block Attention (UniBA)

在UNet、DiT等模型中，块之间的依赖关系是双向的，即在计算时必须同时生成图像中的所有块。为了节省块隐藏状态的内存，我们希望设计一种算法，使其允

许同一图像中的块被分成几批来生成，每批只需要同时生成一部分块，并按批次顺序生成。

主要思想是将图片划分为块，其中B为块的大小。并提出了如下图所示的注意力实现：

左图：单向块注意力中，每个块直接取决于自身层的三个块：左上角的块、左侧和上面的块。

右图：Inf-DiT 的推理过程。Inf-DiT 根据内存大小每次生成 n × n的block。在这个过程中，只有后续块所依赖的块的KV-cache存储在内存中。

Inf-DiT 架构中，块之间的依赖关系是注意力操作。且transformer中单向块注意力可以计算如下：

表示第n层i行j列的块的隐藏状态，为块间相对位置编码。

虽然该方法每一个block的计算依赖的范围变小了，但是由于特征逐层传递，还是可以捕捉到长距离的信息；

在上图中，随着block计算的向前推进，不断有block的hidden states的值被丢弃。即可空间复杂度由原来的变为

Basic Model Architecture

Inf-DiT 的架构使用了与DiT类似的主干，它将Vision Transformer (ViT)应用于扩散模型，与基于卷积的体系结构(如UNet)相比，DiT仅利用注意力作为patch之间的

交互机制，可以方便地实现单向块注意。为了适应单向块注意，提高上采样的性能，我们做了如下几个修改和优化。

Model input

考虑到颜色偏移和细节损失等压缩产生的损失，Inf-DiT 的重建是在 RGB 像素空间中进行的，而不是潜在空间。在超分为f倍时，首先将低分辨率RGB图像上采样f倍，然后将其与扩散的噪声输入在特征维数上连接起来，然后将其输入到模型中。

Position Encoding

参考RoPE旋转位置编码。首先创建一个足够大的位置编码表，使用随机起点：对于每个训练图像，为图像的左上角随机分配一个位置 (x, y)，而不是默认的 (0,0)。此外，考虑到同一块内和不同块之间的交互差异，还引入了块级相对位置编码，它根据注意前的相对位置分配不同的可学习嵌入。

Global and Local Consistency

Global Consistency with CLIP Image Embedding

利用预训练的CLIP中的图像编码器从低分辨率图像中提取图像嵌入，称之为语义输入。由于CLIP是在互联网上海量的图像-文本对上训练的，其图像编码器可以有效地从低分辨率图像中提取全局信息。将全局语义嵌入添加到DiT的时间嵌入中，并将其输入到每一层，使模型能够直接从高级语义信息中学习。

使用 CLIP 中的图像-文本潜在空间，即使模型没有在任何图像-文本对上进行训练，也可以使用文本来指导生成的方向。

给定一个正提示和一个负提示，就可以更新图像嵌入：

α用于控制语义的引导强度。在推理过程中，我们可以简单地使用

代替作为全局语义嵌入来进行控制。

Local Consistency with Nearby LR Cross Attention

模型学习 LR 和 HR 图像之间的局部对应关系时仍然可能存在连续性问题。为了解决这个问题，引入了 Nearby LR Cross Attention。在transformer的第一层中，

每个块对周围的3 × 3 LR块进行交叉注意，以捕获附近的LR信息。实验表明，这种方法显着减少了生成不连续图像的概率。

Experiments

HPDV2数据集下超高分辨率的定量实验：

表现了模型生成高分辨率细节和协调全局信息的能力。虽然在4096X4096下的FID值略小于BSRGAN，但FIDcrop 是高分辨率特征的更有代表性的指标

FIDcrop是从高分辨率图像中随机抽取299 × 299个patch进行FID评估，不会像FID一样忽略了高分辨率的细节，因为FID的原始实现需要在特征提取前将输入图像

下采样到299 × 299的分辨率

下表是在DIV2K数据集下的超分定量实验：

Ablation Study

标签：Diffusion,Transformer,高分辨率,Efficient,模型,生成,图像,DiT,Inf
From： https://blog.csdn.net/m0_59430407/article/details/139202875

Keras深度学习框架第二十五讲：使用KerasNLP预训练Transformer模型
1、KerasNPL预训练Transformer模型概念使用KerasNLP来预训练一个Transformer模型涉及多个步骤。由于Keras本身并不直接提供NLP的预训练模型或工具集，我们通常需要结合像TensorFlowHub、HuggingFace的Transformers库或自定义的Keras层来实现。以下是一个简化的步骤概述，用......
大模型最新黑书：大模型应用解决方案：基于GPT-3、ChatGPT、GPT-4等Transformer架构的自
今天给大家推荐一本丹尼斯·罗斯曼(DenisRothman)编写的关于大语言模型（LLM）权威教程<<大模型应用解决方案>基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理>！Google工程总监AntonioGulli作序，这含金量不用多说，在这里给大家强烈推荐一下这本黑书，下面直接开始介绍！......
Transformer产生的背景
在Transformer最初被提出时，主要是为了解决传统神经机器翻译模型中存在的下面三个问题：1、长距离依赖问题（Long-rangedependency）举个例子，在英文到中文的翻译中，句子中的主语和谓语动词可能之间相隔较远，但是需要正确地识别和翻译。比如：“ThecatthatIsawyesterdayatthepar......
Stable Diffusion绘画提示词
提示词网站Lexica简介：Lexica是一个专注于StableDiffusion模型的prompt搜索引擎，其搜索方式非常简单，集搜索、绘图、关键词为一体AI的绘画工具。除此之外，lexica还提供了AI图像生成功能，用户可以对图片的prompt进行重新编辑并生成新的图片，注：每月有100张免费可供作......
【爆肝分享】AI绘图Stable Diffusion-ComfyUI 从入门到精通完整学习教程资料，AI绘图高
「前言」自从2022年stablediffusion横空出世以来，AI绘图正以其强大的表现能力与惊人的迭代速度极大的改变了建筑师设计与表现的工作流程。无论是利用AI的随机性与可控性进行项目构思。▲AI体块造型构思亦或是利用AI辅助建筑表现。▲AI线稿精准控图甚至使用AI进行......
5.14.6 TransMed：Transformer推进多模态医学图像分类
卷积神经网络（CNN）在医学图像分析任务中表现出了非常有竞争力的性能，例如疾病分类、肿瘤分割和病灶检测。CNN在提取图像局部特征方面具有很大的优势。然而，由于卷积运算的局部性，它不能很好地处理长程关系。多模态医学图像具有明确且重要的长程依赖性，有效的多模态融合策略可以极大......
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection an
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2023. Abstract在本文中，我们提出了一个统一的对象检测和分割框架MaskDINO。MaskDINO通过添加一个支持所有图像分割任务（例如......
diffusion model(一)：DDPM技术小结 (denoising diffusion probabilistic)
发布日期：2023/05/18主页地址：http://myhz0606.com/article/ddpm1从直觉上理解DDPM在详细推到公式之前，我们先从直觉上理解一下什么是扩散对于常规的生成模型，如GAN，VAE，它直接从噪声数据生成图像，我们不妨记噪声数据为\(z\),其生成的图片为\(x\)对于常规的生成模型：学习一个解码函......
OOTDiffusion环境搭建&推理测试
引子记得2015年左右，去参加VALSE的时候，就有虚拟试衣的项目亮相。现在回头看看，当时的效果还是十分简陋和不协调的。今天在全球最大的同性交友网站github上突然发现一个不错的虚拟试衣项目，看其效果还是不错，加入了扩散模型，效果看起来有质的提升。OK，让我们开始吧。一、模型介绍论文......
Restormer Efficient Transformer for High-Resolution Image Restoration——2022CVP
大佬链接：Restormer:EfficientTransformerforHigh-ResolutionImageRestoration-知乎(zhihu.com)一.Motivation1.CNN感受野有限，因此无法对长距离像素相关性进行建模；卷积滤波器在推理时具有静态权重，因此不能灵活地适应输入内容2.Transformer模型缓解了CNN的缺点（有限的感......