[Paper Reading] VQ-GAN: Taming Transformers for High-Resolution Image Synthesis

时间：2024-04-01 23:12:10浏览次数：26

标签：Transformer Transformers VQ 生成 High GAN 图像 latent

名称

[VQ-GAN](Taming Transformers for High-Resolution Image Synthesis)
时间：CVPR2021 oral 21.06
机构：Heidelberg Collaboratory for Image Processing, IWR, Heidelberg University, Germany

TL;DR

Transformer优势在于能较好地长距离建模sequence数据，而CNN优势是天生对局部位置关系具有归纳偏差。本文结合两者特征，利用CNN建立context-rich vocabulary的codebook，利用transformer建立高分辨率(long range relations)构成。

GAN基础知识

GAN全称Generative Adversarial Network，包含两个功能模块分别是generator G用来生成图像(从noise vector生成图像)，discriminator D用来判断生成图像的真实性(二分类网络判断输入图像是真实还是生成，从而拉进两类数据分布距离)。

网络结构

有点像反过来的AE，即Decoder在前面先生成图像，再用Encoder来判断图像的真实性。

实际两个模块是在一个网络里面，只不过训练过程是交替训练的，即训练其中一个模块时另一个模块fix住。

为什么必须要D？训练G的过程为什么fix D?

生成器仅能生成图像，无法知道真实数据的分布，而D可以方便地将图像映射到高维特征空间，从而比较方便衡量数据集之间的分布，并给G传递梯度告诉其靠近真实数据分布的优化方向。
G在生成图像过程中是没有办法知道自己要生成的图像的全局信息，而D一开始就可以获取到图像全局信息，比较容易判断图像质量与改进方向。
如果训练G过程不fix D，那么D就会通过自身参数更新来过拟合图像真假判断的任务，不利于生成器的训练。

为什么必须要G？
D本质上还是一个判别任务，而非生成任务，而我们的目标是生成内容，所以必须要有生成器。

VQ-GAN Method

AE的训练

类似于之前VQ-VAE的训练过程，即AE + embedding space的聚类。

Transformer

latent feature仍然保持spatial信息，每个cell上embedding特征在codebook里面都有唯一编号，这使得一个latent feature可以映射为一个sequence序列，再使用seq2seq的Transformer对latent feature进行特征融合。优势是可以在低分辨率的latent space进行特征融合，使得即使高分辨率图像的生成也能充分融合long-range的context。
方便conditional信息融合：transformer另一个优势是conditional信息也可编码为codebook编号，再利用Transformer auto-regressive来生成图像。
Q：如何生成图像？
实际生成过程并没有完全使用所有前序code编码，而是使用一个sliding windows中编码生成某个coding embedding参见下图。这就是利用了CNN的位置归纳偏置简化了计算。

Experiment

总结与发散

对于本文motivation上的理解：
利用CNN的位置归纳建立context rich codebook（因为CNN提取的特征能够保持spatial信息，所以codebook也具有spatial信息，并且每个cell包含了一定context语义信息）
利用Transformer长时序能力生成生高分辨率图像（Transformer本身就有长时序优势，在这里面Transformer应用于低分辨率的latent feature生成，再Decode为高分辨图，减轻了计算量与生成难度）

资料查询

折叠Title

FromChatGPT(提示词：XXX)

标签：Transformer,Transformers,VQ,生成,High,GAN,图像,latent
From： https://www.cnblogs.com/fariver/p/18102912

CF865D Buy Low Sell High
传送门题意：已知未来\(n\)天的股价\(c_i\)，每天可以买入一支或者卖出一支，求\(n\)天后利润总额最大是多少。算法：模拟费用流。【费用流模型】把每一天抽象为一个结点：\(d_1\simd_n\)。\(S\rightarrowd_1\simd_n\)，容量\(1\)费用\(-c_i\)。\(d_1\simd_n\rightarrowT......
ActiveMQ Artemis 系列| High Availability 主备模式（消息复制）版本2.33.0
一、ActiveMQArtemis介绍ApacheActiveMQArtemis是一个高性能的开源消息代理，它完全符合JavaMessageService(JMS)2.0规范，并支持多种通信协议，包括AMQP、MQTT、STOMP和OpenWire等。ActiveMQArtemis由ApacheSoftwareFoundation开发和维护，旨在提供可靠的消......
devexpress schedulerControl Gantt View 使用
usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Drawing;usingSystem.Text;usingSystem.Linq;usingSystem.Windows.Forms;usingDevExpress.XtraEditors;usingF.Studio.DevExpressUI;usingDevExp......
CycleGAN训练教程
目录项目下载链接 CycleGAN概述CycleGAN原理CycleGAN的应用场景训练过程代码内容环境配置预训练权重下载下载训练数据参数设置训练操作训练界面......
专注驱动器芯片，包括MASTERGAN1TR、VNQ860SP、VNH9013YTR、VN5160STR用于汽车应用
1、MASTERGAN1TR——半桥驱动器通用DMOS31QFN输出配置：半桥应用：通用接口：-负载类型：容性，感性技术：DMOS导通电阻（典型值）：150毫欧电流-输出/通道：10A电流-峰值输出：17A电压-供电：4.75V~9.5V电压-负载：600V（最大）工作温度：-40°C~150°C（TJ）特性：自举电路故障保护：超温，UVLO安装类型......
HFCG-3500+ 信号调节 LTCC High Pass Filter 3900-16500MHz 0805 陶瓷滤波器 Mini-Cir
Mini-Circuits是一家专注于射频和微波产品的跨国公司，总部位于美国纽约。Mini-Circuits提供的产品涵盖了信号调理、信号发生、频率合成、混合信号处理等领域，广泛应用于无线通信、雷达、测试测量、航空航天等行业。制造商: Mini-Circuits 产品种类: 信号调......
论文精读系列文章——Point-LIO: Robust High-Bandwidth Light Detection and Ranging
论文精读系列文章下面是SLAM算法与工程实践系列文章的总链接，本人发表这个系列的文章链接均收录于此论文精读系列文章链接下面是专栏地址：论文精读系列文章专栏文章目录论文精读系列文章论文精读系列文章链接论文精读系列文章专栏前言论文精读系列文章——......
[基础] DiT: Scalable Diffusion Models with Transformers
名称DiT:ScalableDiffusionModelswithTransformers时间：23/03机构：UCBerkeley&&NYUTL;DR提出首个基于Transformer的DiffusionModel，效果打败SD，并且DiT在图像生成任务上随着Flops增加效果会降低，比较符合scalinglaw。后续sora的DM也使用该网络架构。Method网络结构整......
【神经网络算法】一文搞懂GAN（生成对抗网络）
本文将从GAN的本质、GAN的原理、GAN架构改进三个方面，带您一文搞懂生成对抗网络GenerativeAdversarialNetworks | GAN。一、GAN的本质GAN架构：GAN（GenerativeAdversarialNetworks，生成对抗网络）架构由两个主要组件构成：生成器（Generator）和判别器（Discriminator）。这两个组件在......
GaN器件简介
内容来自up主三圈，芯片界我最喜欢的up之一。在此目的是自己做个记录，怕忘记了。部分内容来自：https://zhuanlan.zhihu.com/p/356954927摩尔定律是英特尔创始人之一戈登·摩尔的经验之谈，其核心内容为：集成电路上可以容纳的晶体管数目在大约每经过18个月到24个月便会增加一倍。换言之，......