Difformer: Empowering Diffusion Models on the Embedding Space for Text Generation

时间：2023-03-27 17:50:47浏览次数：60

标签：Diffusion Empowering Space bm beta embedding mathcal theta hat

概
符号说明
主要内容

Gao Z., Guo J., Tan X., Zhu Y., Zhang F., Bian J. and Xu L. Difformer: Empowering diffusion models on the embedding space for text generation. arXiv preprint arXiv:2212.09412, 2022.

概

本文发现并改进了原先 Diffusion 模型的缺点 (针对文本生成任务).

符号说明

\(\bm{x} = [x_1, x_2, \cdots, x_m]\), source sentence;
\(\bm{y} = [y_1, y_2, \cdots, y_n]\), target sentence;
前向过程:
\[q(\bm{z}_t|\bm{z}_{t-1}) = \mathcal{N}(\bm{z}_t; \sqrt{1 - \beta_t} \bm{z}_{t-1}, \beta_t \bm{I}), \\ \bm{z}_0 \sim \mathcal{N}(\bm{e(y)}; \beta_0 \bm{I}). \]
其中 \(\bm{e}(\cdot)\) 将离散的 token \(y\) 映射到 embedding 空间.
反向过程:
\[p_{\theta}(\bm{z}_{t-1}|\bm{z}_t) = \mathcal{N}(\bm{z}_{t-1}; \bm{\mu}_{\theta}(\bm{z}_t, t), \bm{\Sigma}_{\theta}(\bm{z}_t, t)). \]
一般, 方差和前向保持一致, 然后我们实际上拟合的是
\[\hat{\bm{z}}_0 = f_{\theta}(\bm{z}_t, t). \]

主要内容

Diffusion 在文本生成之上的应用大抵为优化如下的损失:

\[\underbrace{\mathbb{E}_{\bm{z}_0, t} [\|\hat{\bm{z}}_0 - \bm{z}_0\|^2]}_{\mathcal{L}_{vlb}} + \underbrace{(- \mathbb{E}_{\bm{z}_0, \bm{y}} \log p_{\theta}(\bm{y}|\bm{z}_0))}_{\mathcal{L}_{round}}. \]
前者是普通的 diffusion 损失, 后者是用于离散到连续的对齐.
问题1: 可学习的 embeddings: 和 image, video 不同的是, embedding 是可学习的, 这可能导致训练的不稳定.
解决办法1: 如上图所示, 我们用不同时刻 t 的预测 \(\hat{\bm{z}}_0\) 来靠近 \(\bm{y}\), 即

\[\mathcal{L}_{anchor} = -\log p_{\theta}(\bm{y}|\hat{\bm{z}}_0) \]
来替代 \(\mathcal{L}_{round}\).
问题2: embedding 的 norm 不一致: 由于词频不一致, 作者发现训练过程中高频词的 norm 会普遍大一点. 此时加入相同量级的噪声对于信号的干扰程度就不一致了:
解决办法2: 故作者在 embedding 之后加了一个 embedding normalization 层 (不过看起来对实际效果的提升不是特别大):

\[\text{LN}(\bm{e}(y_i)) = \frac{\bm{e}(y_i) - \mathbb{E}[\bm{e}(y_i)]}{\sqrt{\mathbb{V}[\bm{e}(y_i)] + \epsilon}} \odot \bm{\gamma} + \bm{\eta}. \]
问题3: noise schedule 导致扩散过程的大部分阶段都是'无意义'的: 作者发现, 对于一般的前向过程和 noise schedule 而言, 整个过程的大部分时间的干扰效果都是很差的, 此时很难充分训练 (特别是对于 sqrt 这种 schedule):
解决办法3: 作者对整体的扰动的方差进行一个扩张:

\[q(\bm{z}_t|\bm{z}_{t-1}) = \mathcal{N}(\bm{z}_t; \sqrt{1 - \beta_t} \bm{z}_{t-1}, \beta_t F^2 \bm{I}). \]
一般的扩散 \(F=1\), 作者发现 \(F=4\) 会产生相当不错的结果.

标签：Diffusion,Empowering,Space,bm,beta,embedding,mathcal,theta,hat
From： https://www.cnblogs.com/MTandHJ/p/17262324.html

yuan-2022-PhysDiff: Physics-Guided Human Motion Diffusion Model
#PhysDiff:Physics-GuidedHumanMotionDiffusionModel#paper1.paper-info1.1MetadataAuthor::[[YeYuan]],[[JiamingSong]],[[UmarIqbal]],[[ArashVa......
Discretizing Continuous Action Space for On-Policy Optimization
发表时间：2020（AAAI2020）文章要点：作者想说，连续动作通常都假设每个维度是高斯分布的，这就限制了策略一定是一个单峰，而离散动作就没有这个约束，所以有离散的必要。然后这篇文章......
关于MySQL”Tablespace for table **** exists“错误如何解决
前段时间服务器蹦造成所有项目都启动不了，需要重装系统。而在重装前把数据及项目代码都打包备份。重装好后重新搭建项目，而在导入数据库时出现了个别数据表导不进，而后查看报......
Creating VM fails with error: "No VASA Provider for schema namespace (VSAN) foun
https://kb.vmware.com/s/article/52286......
Convex Analysis and Monotone Operator Theory in Hilbert Spaces 3.1-3.2 总结材料
拓扑空间基本概念集合是数学中最基本的概念之一，我们最常见的集合便是\(\mathbb{R}\)。\(\mathbb{R}\)中的元素有大小关系，即\(\mathbb{R}\)上有序结构；\(\mathbb{R......
Stable Diffusion--模型
模型的分类1.大模型文件大小：几个G作用：决定了AI图的主要风格常见后缀名：.cpkt，.safetensors存放路径：..\models\Stable-diffusion模型切换Lora模型Low-RankAdaptat......
matlab logspace函数生…
用法：logspace(a,b,n)，其中a、b、n分别表示开始值（10^a）、结束值(10^b)、元素个数(n)。功能：生成从10的a次方到10的b次方之间按对数等分的n个元素的行向量。n如果省略，则默认值为5......
docker网络-Namespace
Namespace-网络netns是在linux中提供网络虚拟化的一个项目，使用netns网络空间虚拟化可以在本地虚拟化出多个网络环境，目前netns在lxc容器中被用来为容器提供网络......
扩散模型 (Diffusion Model) 简要介绍与源码分析
扩散模型(DiffusionModel)简要介绍与源码分析前言近期同事分享了DiffusionModel,这才发现生成模型的发展已经到了如此惊人的地步,OpenAI推出的Dall-E2可以根据......
学习笔记290—文献分析 Citespace 6.1.2 下载及安装教程
文献分析Citespace6.1.2下载及安装教程Citespace简介CiteSpace是一款着眼于分析科学分析中蕴含的潜在知识，是在科学计量学、数据可视化背景下逐渐发展起来的一款引文......

Difformer: Empowering Diffusion Models on the Embedding Space for Text Generation

概

符号说明

主要内容

相关文章

赞助商

阅读排行