首页 > 其他分享 >扩散模型在文本摘要任务中可以采用的训练方法

扩散模型在文本摘要任务中可以采用的训练方法

时间:2023-07-12 11:44:46浏览次数:35  
标签:text 摘要 任务 训练方法 生成 token 扩散 文本

扩散模型在文本摘要任务中可以采用的训练方法

条件控制

通过设定不同的条件c,文本生成任务可以被进一步分类为unconditional generation,attribute-to-text generation (如属性控制),text-to-text generation (如机器翻译)。已有的文本扩散模型设计了不同的conditioning strategies将不同的条件c和去噪网络相结合。

当c被设置为文本序列或文章时,任务变为text-to-text generation,例如机器翻译和文本摘要。这类任务相较于attribute-to-text任务普遍更具挑战性,因为他们难以被简单的属性分类器控制。因此classifier-gudiance方法不再适用。Diffuseq提出了partially noising策略将条件文本整合进连续的扩散过程中。
具体而言,去噪网络的输入是目标文本和条件文本的拼接。在前向过程中,拼接起来的序列被部分打乱,噪声只添加到目标文本的部分,而条件文本保持不变。逆向过程从条件文本和随机噪声的拼接开始,整个过程中条件文本依旧保持不变,随机噪声被逐渐还原。Difformer和SeqDiffuSeq将完整的transformer作为去噪网络。Encoder负责生成条件文本的embedding表示,Decoder将被打乱的文本的embedding和条件文本的embedding通过cross-attention结合,进而预测打乱前的文本。

Semi-NAR Generation

SSD-LM引入了半非自回归的生成策略,迭代地生成一个大小为B的token block,每次生成的输入都是之前生成的block和一个随机噪声的拼接。新生成的block也会和此前的block拼接起来作为新的context。上述生成过程会重复至生成的文本达到想要的长度。这样的生成策略弥补了文本扩散模型的非自回归生成方式中缺少依赖的问题。

Additional Normalization

Difformer观察到少见的token往往比常见的token拥有更大的范数,但已有的文本扩散模型对不同token添加的噪声规模是相同的。因此少见的token需要更多的扩散步骤才能被完全打乱。因此Difformer引入了一个layer normalization模块将word embedding的大小约束到相同的水平。

展望

已有的文本扩散模型中的noise schedule大部分源自图像生成任务,在前向和去噪过程中平等对待所有的token。因此它们会忽视token在重要性和出现频率上的差异,导致对关键词或罕见词的生成不够准确等问题。DiffusionBERT中的spindle schedule对信息量更高的单词赋予了更高的权重并带来了明显的性能提升。针对文本数据并且任务相关的noise schedule需要进一步的研究。

标签:text,摘要,任务,训练方法,生成,token,扩散,文本
From: https://www.cnblogs.com/charon52HZ/p/17547118.html

相关文章

  • ORACLE 文本导入器 CSV文件导入
    1创建临时表createtabletemp_dr(col1varchar2(100),col2varchar2(100),col3varchar2(100),col4varchar2(100),col5varchar2(100),col6varchar2(100));2文本导入器 2.1选择文件 2.2选择接收用户表 2.3 设置字段对应关系......
  • elementui文本框_element UI el-autocomplete组件 带输入建议的输入框
    elementui文本框_elementUIel-autocomplete组件带输入建议的输入框原文链接:elementui文本框_elementUIel-autocomplete带输入建议的输入框项目需求:需要用户在输入框中输入公司全名  但是为了避免用户输入不全  需要做一个带输入建议的输入框element组件:class......
  • js 检测文本是否溢出
    自定义指令的方式手写实现/***检测文本是否溢出*参考https://github.com/ElemeFE/element/blob/dev/packages/table/src/table-body.js#L241*@param{*}e*@returns*/functionisEllipsis(e){returnnewPromise(resolve=>{constel=window.event......
  • 多行文本转成一行的实现方法
    哈喽大家好,我是咸鱼不知道你们有没有遇到过下面的情况,以我为例有时候我会收到批量操作服务器的需求,且我会拿到一个服务器ip列表,它是一个多行的形式,如下所示#ip列表192.168.0.1192.168.0.2192.168.0.3192.168.0.4192.168.0.5192.168.0.6但我使用saltstack进行批量......
  • 多行文本内容超出点点点…最后一行显示
    对于现代浏览器,例如webkit内核的浏览器,或者移动端,是可以实现多行文本内容超出点点点…最后一行显示的,典型的CSS组合如下:.box{display:-webkit-box;-webkit-line-clamp:3;-webkit-box-orient:vertical;}其中-webkit-line-clamp就是控制行数的,是3就是显示3行,3行结束点点点,如果......
  • WPF中TextBlock文本换行与行间距
    换行符:C#代码中:\r\n或 \r或\n    XAML中:&#x0A;或&#x0D;注:\r回车(carriagereturn 缩写),\n新行(newline缩写)。 行间距:LineHeight属性 示例:<TextBlockLineHeight="20"Text="I'mline1&#x0A;I'mline2"/><Te......
  • 更改label标签的文本内容
    1.原始标签 2.变更的代码 3.效果 ......
  • js复制文本到剪切板
    参考:https://blog.csdn.net/evanyanglibo/article/details/127851585//复制文本functioncopyText(text){varelement=createElement(text);element.select();element.setSelectionRange(0,element.value.length);document.execCommand('copy');el......
  • 4. Q_ 设置_p_的_font_size_10rem_,当用户重置或拖曳浏览器窗口时,文本大小是
    Q:设置p的font-size:10rem,当用户重置或拖曳浏览器窗口时,文本大小是否会也随着变化?A:不会。rem是以html根元素中font-size的大小为基准的相对度量单位,文本的大小不会随着窗口的大小改变而改变。......
  • 8. Q_ 如下代码中文本_Sausage_的颜色是_
    Q:如下代码中文本“Sausage”的颜色是?<ulclass="shopping-list"id="awesome"><li><span>Milk</span></li><liclass="favorite"id="must-buy"><spanclass="highlight">Saus......