1. 输入内容会带有一定的转写错误,会对模型的训练造成一个的干扰
用了input word replace方法,将一部分输入的词随机替换成其他词表中的词,这种类似于对抗训练的方法能够极大增加模型的鲁棒性,并且使得模型有一定的识别转写错误、纠正转写错误的能力。
input word replace
因为输入是语音转文字自动生成的,所以输入中会存在不少噪音。
这里作者对输入中的一部分词进行随机替换,显式增加噪音让模型对噪音内容更加熟悉。
此外,在Decoder端,因为训练输入正确答案,而测试时使用的生成的带有错误的内容会造成曝光误差的问题,所以我们将Decoder端也作一些词的随机替换。
2. 模型的输入-输出比较长
针对长输入问题,我们使用三种方法来将长输入进行压缩,分别是截断、先抽取后生成、渐进增长训练。
2.1 截断
根据摘要的核心内容进行截断。核心内容没有规律性,可以通过做实验验证
-
前1024字符作为输入。
-
中间1024字符作为输入。
-
后1024字符作为输入。
-
前512字符+后512字符作为输入
2.2 先抽取后生成
对于长文本输入问题,最理想的方法就是首先通过抽取的方式抽取出重要的句子,接着使用生成的方式生成最终的答案。
这里使用客服和用户的每一次对话作为句子,然后使用分类的方式判断该句是否应该被选择。
在构造训练集时,我们选择和摘要最匹配的前30%句子作为答案。
抽取模型方面,我们首先使用BERT来表示每句话,然后使用一个多层的transformer encoder进行句子间的交互,最后使用一个二分类器判断是否抽取该句。
模型训练完成之后,我们根据分类结果,选取按照预测结构对句子进行排序,并且从高到低选取总长度不超过1024的句子作为输入。
2.3 渐进式增长(?)
为了加快速度以及更加充分训练,我们首先使用输入长度1024进行训练,接着在1024长度训练的基础上将长度增长到2048。这种方式目前已经广泛用在预训练中,因为transformer模型对于输入长度L为平方级别的复杂度,所以渐进增长输入长度即不会带来效果的损失,也能够极大提高模型训练速度。
3. 模型训练数据较少
T5-pegasus模型在450G的大规模无监督语料上进行预训练,这种预训练方法能够很好地学习通用知识,使得模型能够在较少的训练数据上得到很好的下游任务模型。
T5模型使用Seq2Seq的架构,模型包括一个encoder和一个decoder,并且提出了一种新的在decoder端预测连续mlm片段的方法。而针对于摘要任务,Google提出了pegasus预训练模型,该模型专门为摘要任务设计的无监督预训练任务,pegasus预训练任务使用文章中的关键句作为训练目标,文章其他句子作为输入,这种关键句子生成的方式和摘要任务非常契合。
参考:https://www.zhihu.com/question/306887936/answer/2752498215
标签:1024,训练,客服,模型,摘要,转录,句子,输入 From: https://www.cnblogs.com/charon52HZ/p/17412460.html