首页 > 其他分享 >生成方向论文速览

生成方向论文速览

时间:2024-01-23 22:25:05浏览次数:36  
标签:训练 epsilon 模型 论文 生成 速览 mathcal theta mathrm

High-Resolution Image Synthesis with Latent Diffusion Models

  • 主要思想:基于像素空间的扩散模型训练需要消耗巨量资源。作者认为模型在训练的时候会经过两个阶段,前一阶段是语义的压缩和理解,是模型比较重要的,而后一阶段是感知理解和压缩,是人无法感受到的。通过提前训练一个encoder和decoder将图片转化为具有语义信息的潜空间特征,并在特征空间中进行扩散是这篇论文的主要思路。
    Loss

模型大致如下:通过训练一个\(\mathcal{E}\)和\(\mathcal{D}\)进行正逆映射。通过交叉注意力来引入其他的监督信号。
Model

\[\begin{aligned} &L_{DM}=\mathbb{E}_{x,\epsilon\sim\mathcal{N}(0,1),t}\left[\|\epsilon-\epsilon_\theta(x_t,t)\|_2^2\right],&\quad(1)\\ &L_{LDM}:=\mathbb{E}_{\mathcal{E}(x),\epsilon\sim\mathcal{N}(0,1),t}\left[\|\epsilon-\epsilon_\theta(z_t,t)\|_2^2\right].&\quad(2)\\ &L_{LDM}:=\mathbb{E}_{\mathcal{E}(x),y,\epsilon\sim\mathcal{N}(0,1),t}\left[\|\epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y))\|_2^2\right],&\mathrm{~(3)} \end{aligned} \]

结果:

  1. 图像到潜变量的缩放因子在4-16比较好,少了无效果,多了会损失信息无法扩散。
  2. 在text2img,inpainting、super-resolution都取得了良好效果。

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

主要贡献:设计了一套数据清洗策略来清洗大规模的低质量的数据,用于训练T2V的SOTA模型,并证明了此模型具有足够强的关于动作和3D的先验知识可以用于视频相关的下游任务。

目前主要的T2V的模型都是基于T2I模型进行一些额外的修改(添加序列信息,添加condition等),因此大部分T2V模型的训练会经过以下的流程:image_pretrain ---> video_pretrain ---> video_finetune。模型会现在图片上进行训练,之后是大规模低质量数据,最后实在高质量的数据集上优化。

Data curation workflow

cut detection pipeline \(\rightarrow\) 3 caption method \(\rightarrow\) -> dense optical flow(remove static or text img) \(\rightarrow\) alcu-
late aesthetics scores and text-image similarities.

3 training stage

img

这几个数据集主要揭示了使用经过处理之后的vedio数据集进行预训练,即使经过了后续的finetune,最终的模型性能仍然更加优秀。上述图片是实验结果。

VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

主要贡献:1. 提出了一个交换空间的交叉注意力方式。2. 收集了130M的高质量、无水印的数据集。

swap Spatiotemporal Cross Attention

SPCA

主要是对于连续的UNet Blk,分别使用空间特征和时序特征作为Q来进行交叉注意力。

HD-VG-130M

Dataset

没有详细介绍数据集的收集和清洗过程,使用的是PySceneDetect作为分析工具。

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Adding Conditional Control to Text-to-Image Diffusion Models

  • 为Stable diffusion加入condition,实现自定义控制
  • Stable diffusion 的网络架构不变,Encoder 被复制一份(要求完全复制权重),用于做condition的编码,采用了zero convolution 进行权重初始化(保证没有噪音在初始化时候影响模型),保证在网络训练的初期等价于原始stable diffusion.

ControlNet

将ControlNet用在了SD的Encoder上:

img

Improved Denoising Diffusion Probabilistic Models

提出了一些改善DDPM的方法:

\(\Sigma_\theta(x_t,t)=\exp(v\log\beta_t+(1-v)\log\tilde{\beta}_t)\)

  • 在之前论文发现使用固定的\(\beta_t ,\tilde{\beta}_t\)在最终效果是类似的,采用上述的插值来确定\(\Sigma,v\)是一个学习的变量

\(L_{\mathrm{hybrid}}=L_{\mathrm{simple}}+\lambda L_{\mathrm{vlb}}\)

  • 修改了loss函数,使得\(\Sigma\)也能够学习,同时\(\mathrm{L}{vlb}\)只被用于优化\(\Sigma(x_t,t)\),优化\(\mu_{\theta}\)的梯度被关闭。

\(\bar{\alpha}_t=\frac{f(t)}{f(0)},\quad f(t)=\cos\left(\frac{t/T+s}{1+s}\cdot\frac\pi2\right)^2\)

  • 修改了\(\alpha_t\)的变化方式,之前都是从0.9-0.999线性增长的,论文通过一种更加平稳的增长方式(加上了<0.999的限制)

img

通过一系列实验证明了上述方式在生成质量和速度(通过增加stride方式)的优势。

img

img

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

一个可以设置多个点移动来对图像空间语意(pose、segmentation...)进行修改的GAN模型

主要分为motion supervisionpoint tracking两个部分,并且论文认为判别器的中间层特征足够丰富,因此不用使用其他方法就可以用来进行motiontracking的工作

img

  • 在生成最终图片之前交替进行motion supervisionpoint tracking工作,生成新的image mid-featuremap latentcode,并且在mid feature map上使用最近邻搜索来确定新的point位置。

img

损失函数:

\[\mathcal{L}=\sum_{i=0}^n\sum_{\boldsymbol{q}_i\in\Omega_1(\boldsymbol{p}_i,r_1)}\|\mathrm{F}(\boldsymbol{q}_i)-\mathrm{F}(\boldsymbol{q}_i+\boldsymbol{d}_i)\|_1+\lambda\|(\mathbf{F}-\mathbf{F}_0)\cdot(1-\mathbf{M})\|_1 \]

上述loss函数是的在\(q_i\)的点向目标点\(t\)移动,移动的距离为\(d_{i}=\frac{t_{i}-p_{i}}{\|t_{i}-p_{i}\|_{2}}\),就是要求\(q_i\)的点向更靠近\(t\)的\(q_i+d_i\)点的特征靠近。

标签:训练,epsilon,模型,论文,生成,速览,mathcal,theta,mathrm
From: https://www.cnblogs.com/chenfengshijie/p/17983552

相关文章

  • 手型机器人、灵巧手机器人:交互感知-行为提取-意图理解-技能生成-运动映射-灵巧操作”
    灵巧手机器人,灵巧精准操作的手型机器人,最有名的应该就是Google的Deepmind推出的可以玩魔方的手型机器人了,如下图:相关资料:https://baijiahao.baidu.com/s?id=1647601517185392390&wfr=spider&for=pchttps://m.thepaper.cn/baijiahao_4728005地址:http://www.ia.cas.cn/kygz......
  • asp使用ItextSharp生成Pdf
    1.使用ItextSharp生成Pdf应用场景:将用户所填写的数据根据业务场景填入到pdf模板中并生成新的pdf。操作步骤如下:1.1.使用word制作模板制作word模板然后转成pdf,使用福昕或者其他pdf编辑器在需要填充数据的地方添加文本域(我这里使用的是破解版的福昕)。1.2.设置变量将需要填......
  • 便捷生成官方证件照:Passport Maker AI 为你提供完美解决方案
    引言在申请护照、签证或身份证时,我们经常需要一张符合规定的照片。PassportMakerAI是一款在线工具,旨在帮助用户轻松创建符合130多个国家尺寸和背景要求的护照、签证和身份证照片。本文将深入介绍PassportMakerAI的功能和作用。PassportMakerAI的作用1.轻松创建官方证......
  • 22. 括号生成
    1.题目介绍数字n代表生成括号的对数,请你设计一个函数,用于能够生成所有可能的并且有效的括号组合。示例1:输入:n=3输出:["((()))","(()())","(())()","()(())","()()()"]示例2:输入:n=1输出:["()"]提示:1<=n<=82.题解2.1暴力枚举思路我们利用递归枚举出n对......
  • templeetcode 22.括号生成
    leetcode22.括号生成第二十二题:括号生成1.回溯:publicList<String>generateParenthesis(intn){List<String>ans=newArrayList<String>();backtrack(ans,newStringBuilder(),0,0,n);returnans;}publicvoidbackt......
  • Oracle AWR报告自动生成异常
    监控平台收集不到wrh$_tablespace_space_usage表数据。awr报告没有任何快照信息。alter日志发现报错:SuspendingMMONslaveactionkewrmafsa_for82800seconds MMON进程trace文件报错如下:UnabletoscheduleaMMONslaveat:AutoFlushMain1Slaveactionhasbeen......
  • 基于信号量的环形队列的生成消费模型(万字长文详解)
    linux线程之信号量POSIX信号量阻塞队列的缺陷==这是一个我们自己的实现阻塞队列!==classBlockQueue{public:BlockQueue(constint&maxcap=gmaxcap):maxcap_(maxcap){pthread_mutex_init(&mutex_,nullptr);......
  • e4a开发的一款手机银行app虚拟转账回执单生成器源码分享下载 -23软件网
    编写一个虚拟转账回执单生成器的源码对于E4A(EasyforAndroid)开发环境来说是一个有趣的项目。E4A是一个简化Android应用开发的工具,它允许开发者使用较为简单的编程语言和工具来创建应用。以下是一个简单的示例代码,用于创建一个模拟的手机银行App中的虚拟转账回执单生成器。请注意......
  • 读论文-基于注意力机制的对抗性协同过滤推荐算法
    前言今天读的论文为一篇名叫《基于注意力机制的对抗性协同过滤推荐算法》,文中主要介绍了一种基于相关注意力的协同过滤推荐算法,该算法结合深度学习中的注意力机制为不同物品分配不同的权值来捕获与目标物品最相关的物品,探索不同物品的权重对模型预测的影响并以此提升推荐的准确......
  • python随机生成图片验证码第二篇
    Python生成随机验证码,需要使用PIL模块.安装: pip3installpillow基本使用1.创建图片fromPILimportImageimg=Image.new(mode='RGB',size=(120,30),color=(255,255,255))#在图片查看器中打开#img.show()#保存在本地withopen('code.png','wb')asf......