Diffusion-LM Improves Controllable Text Generation

时间：2023-03-02 20:23:38浏览次数：48

标签：Diffusion Controllable mathbf Emb Generation Text text theta DPM

概
符号说明
流程
代码

Li X. L., Thickstun J., Gulrajani I., Liang P. and Hashimoto T. B. Diffusion-lm improves controllable text generation. arXiv preprint arXiv:2205.14217, 2022.

概

本文介绍了一种将 DPM 应用到可控文本生成之上, 虽然 Text 的本质是离散的, 但是作者依然采用连续的方式进行扩散 (归功于所引入的 rounding 模块).

符号说明

\(\mathbf{w} = [w_1, w_2, \ldots, w_n]^T \in \mathbb{R}^n\), words;
\(p_{lm}(\mathbf{w})\), 普通的用于生成的语言模型;
\(p(\mathbf{w}|\mathbf{c})\), 基于条件 \(\mathbf{c}\) 的语言生成模型 (比如, \(\mathbf{c}\) 可以是语法结构, 情感等);

流程

由于本文提出的条件生成模型是 classifier-guided 的, 所以就包含了两个单独的部分, 其中拟合 \(p(\mathbf{w})\) 如上图所示.
其整体的思路和原始的 DPM 并灭有特别的大差别, 主要需要解决的问题是:
1. 前向的时候, 如何从离散的 Text (\(\mathbf{w}\)) 空间到连续空间? 作者给出的方案就是简单地用 embedding: 即首先 look_up 得到 embeddings:
  
  \[\text{Emb}(\mathbf{w}) = [\text{Emb}(w_1), \ldots, \text{Emb}(w_n)] \in \mathbb{R}^{nd}, \]
  然后假设
  
  \[q_{\phi}(\mathbf{x}_0|\mathbf{w}) = \mathcal{N}(\text{Emb}(\mathbf{w}), \sigma_0 I). \]
2. 后向的时候, 如何从连续的 \(\mathbf{x}_0\) 映射回离散的 Text 呢? 要知道, 几乎不可能 \(\mathbf{x}_0\) 恰好和某个词的 embedding 一致. 作者构建了可训练的 rounding step:
  
  \[p_{\theta}(\mathbf{w}|\mathbf{x}_0) = \prod_{i=1}^n p_{\theta}(w_i | x_i), \]
  其中每个 \(p_{\theta}(w_i|x_i)\) 都是是通过 softmax 构建的.
在进行上述第二步的过程中, 作者遇到了些许麻烦, 虽然我没怎么看懂作者在这一刻的表述, 我感觉大概意思是在对齐方面出了些问题. 出问题的原因是 DPM 在 \(t=0\) 位置的训练不够, 所以作者直接添加了一个很强的 loss:

\[\sum_{t=1}^T \mathbb{E}_{x_t}\|f_{\theta}(\mathbf{x}_t, t) - \mathbf{x}_0\|^2. \]
最后稍稍提一下条件生成的部分, 因为 DPM 采样只需要提供 \(p(\mathbf{x}_{t-1}|\mathbf{x}_t, c)\) 的梯度即可, 所以可以通过 (贝叶斯公式):

\[\nabla_{\mathbf{x}_{t-1}} \log p(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{c}) = \nabla_{\mathbf{x}_{t-1}} \log p (\mathbf{x}_{t-1}|\mathbf{x}_t) + \nabla_{\mathbf{x}_{t-1}} \log p(\mathbf{c}|\mathbf{x}_{t-1}). \]
最后的最后提一个可能还挺重要的 trick, 正如之前所述, 作者认为在 \(t\) 接近 0 的附件拟合的不好, 所以作者希望更加强调这一部分, 所以采用的是一种新的 sqrt noise schedule:

\[\bar{\alpha}_t = 1 - \sqrt{t / T + s}, \]
大概如下图所示:

代码

official

标签：Diffusion,Controllable,mathbf,Emb,Generation,Text,text,theta,DPM
From： https://www.cnblogs.com/MTandHJ/p/17173319.html

搭建stable-diffusion-webui环境，使用ai生成图片
首先python版本要求：Python3.10 第一步下载框架代码：https://github.com/AUTOMATIC1111/stable-diffusion-webui.gitgithub慢的话把域名换成https://kgithub.com/ ......
【奶奶看了也不会】AI绘画 Mac安装stable-diffusion-webui绘制AI妹子保姆级教程
1.作品图2.准备工作目前网上能搜到的stable-diffusion-webui的安装教程都是Window和MacM1芯片的，而对于因特尔芯片的文章少之又少，这就导致我们还在用老Intel芯片的Mac......
Diffusers中基于Stable Diffusion的哪些图像操作
目录辅助函数Text-To-ImageImage-To-ImageIn-paintingUpscaleInstruct-Pix2Pix基于StableDiffusion的哪些图像操作们：Text-To-Imagegeneration：StableDiffusionPipeline......
CF818F - Level Generation
题意：假设当前有\(n\)个点，求最多的边数，使得桥的数量\(\ge\lceil\dfrac{m}{2}\rceil\)。我们考虑构造，首先，整张图一共只有一个双连通分量。因为我们如果有两个双连通分量，......
Linux安装Taiyi stable-diffusion-webui
1.安装环境操作系统及版本：Ubuntu20.04.5GPU:8GBGPU驱动(我是阿里云GPU服务器) Linux手动安装GPU驱动参考：https://docs.nvidia.com/datacenter/tesla/tesla-inst......
一文弄懂 Diffusion Model
前言最近AI绘图非常的火，其背后用到的核心技术之一就是DiffusionModel（扩散模型），虽然想要完全弄懂DiffusionModel和其中复杂的公式推导需要掌握比较多的前置数学知识......
使用 LoRA 进行 Stable Diffusion 的高效参数微调
LoRA:Low-RankAdaptationofLargeLanguageModels是微软研究员引入的一项新技术，主要用于处理大模型微调的问题。目前超过数十亿以上参数的具有强能力的大模型(例如G......
代码生成Code generation to LLVM IR
代码生成CodegenerationtoLLVMIR代码生成的准备工作在开始生成LLVMIR之前，还有一些准备工作要做。首先，给每个AST类添加一个虚函数Codegen（codegeneration），用于实现代......
Stable Diffusion 关键词tag语法教程
提示词PromptPrompt是输入到文生图模型的文字，不同的Prompt对于生成的图像质量有较大的影响支持的语言StableDiffusion,NovelAI等模型支持的输入语言为英语，SD支持用......
【五期邹昱夫】CCF-A（KDD '19）Auditing data provenance in text-generation models.
"SongC,ShmatikovV.Auditingdataprovenanceintext-generationmodels[C]//Proceedingsofthe25thACMSIGKDDInternationalConferenceonKnowledgeDiscove......

Diffusion-LM Improves Controllable Text Generation

概

符号说明

流程

代码

相关文章

赞助商

阅读排行