客服对话转录摘要竞赛的方法

时间：2023-05-18 16:56:25浏览次数：43

1. 输入内容会带有一定的转写错误，会对模型的训练造成一个的干扰

用了input word replace方法，将一部分输入的词随机替换成其他词表中的词，这种类似于对抗训练的方法能够极大增加模型的鲁棒性，并且使得模型有一定的识别转写错误、纠正转写错误的能力。

input word replace

因为输入是语音转文字自动生成的，所以输入中会存在不少噪音。
这里作者对输入中的一部分词进行随机替换，显式增加噪音让模型对噪音内容更加熟悉。
此外，在Decoder端，因为训练输入正确答案，而测试时使用的生成的带有错误的内容会造成曝光误差的问题，所以我们将Decoder端也作一些词的随机替换。

2. 模型的输入-输出比较长

针对长输入问题，我们使用三种方法来将长输入进行压缩，分别是截断、先抽取后生成、渐进增长训练。

2.1 截断

根据摘要的核心内容进行截断。核心内容没有规律性，可以通过做实验验证

前1024字符作为输入。
中间1024字符作为输入。
后1024字符作为输入。
前512字符+后512字符作为输入

2.2 先抽取后生成

对于长文本输入问题，最理想的方法就是首先通过抽取的方式抽取出重要的句子，接着使用生成的方式生成最终的答案。

这里使用客服和用户的每一次对话作为句子，然后使用分类的方式判断该句是否应该被选择。
在构造训练集时，我们选择和摘要最匹配的前30%句子作为答案。
抽取模型方面，我们首先使用BERT来表示每句话，然后使用一个多层的transformer encoder进行句子间的交互，最后使用一个二分类器判断是否抽取该句。
模型训练完成之后，我们根据分类结果，选取按照预测结构对句子进行排序，并且从高到低选取总长度不超过1024的句子作为输入。

2.3 渐进式增长（？）

为了加快速度以及更加充分训练，我们首先使用输入长度1024进行训练，接着在1024长度训练的基础上将长度增长到2048。这种方式目前已经广泛用在预训练中，因为transformer模型对于输入长度L为平方级别的复杂度，所以渐进增长输入长度即不会带来效果的损失，也能够极大提高模型训练速度。

3. 模型训练数据较少

T5-pegasus模型在450G的大规模无监督语料上进行预训练，这种预训练方法能够很好地学习通用知识，使得模型能够在较少的训练数据上得到很好的下游任务模型。

T5模型使用Seq2Seq的架构，模型包括一个encoder和一个decoder，并且提出了一种新的在decoder端预测连续mlm片段的方法。而针对于摘要任务，Google提出了pegasus预训练模型，该模型专门为摘要任务设计的无监督预训练任务，pegasus预训练任务使用文章中的关键句作为训练目标，文章其他句子作为输入，这种关键句子生成的方式和摘要任务非常契合。

参考：https://www.zhihu.com/question/306887936/answer/2752498215

标签：1024,训练,客服,模型,摘要,转录,句子,输入
From： https://www.cnblogs.com/charon52HZ/p/17412460.html

知识库AI机器人客服接口对接-唯一客服系统文档中心
如果你的需求仅仅是对接自训练的ChatGPT接口，实现自己的个性化机器人，那么可以看看下面的个性化ChatGPT调用接口前提条件是已经搭建好了知识库服务，该服务默认监听端口8083chat接口地址POST http://127.0.0.1:8083/data_collection/searchStream请求头必须是form形式，因为接收数据......
Linux 中 shell 脚本实现根据gff统计每一个基因的转录本数目
001、生成基因名称的列表awk-F"\t"'$3=="gene"&&$NF~/gene=/{print$NF}'chr1.gff|sed's/$.*$$gene=[^;]\+$$.*$/\2/'|sort|uniq>gene.list 002、 ......
易基因：多组学关联分析及组学分子实验验证方法（表观组+转录组+微生物组）｜干货系列
大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。生物过程具有复杂性和整体性，单组学数据难以系统全面解析复杂生理过程的分子调控机制。而多组学（Multi-omics）联合分析可同时实现从“因”和“果”两个层面研究生物学问题，并对其相关性进行验证。高通量技术的发展，通过对......
微信公众号服务号客服对接-唯一客服系统文档中心
微信公众号客服功能，需要公众号为认证的服务号，可以实现公众号模板消息提醒，网页授权获取到微信的昵称头像，机器人或AI自动回复功能等微信公众号后台设置【设置与开发】【基本配置】设置好公众号的AppIDAppSecretIP白名单【设置与开发】【基本配置】【服务器配置】启用并且完成......
访客智能分配-唯一客服系统文档中心
账号介绍唯一客服系统账号分为三个等级：超级管理员、商户主账号、商户子账号。其中超级管理员对商户都是透明的不可见，每个商户账号之间是独立的互相不可见，商户下可创建商户子账号。系统本身是属于多商家多坐席SaaS客服系统分配原则访客智能分配的意思是，当访客打开聊天界面，会自......
知识库AI部署搭建-唯一客服系统文档中心
唯一客服系统知识库服务，支持向量形式个性化训练ChatGPT，该服务是独立搭建的，下面是一些介绍安装docker现在基于GPT相应实现自建本地知识库，必不可少的就是向量数据库，现在介绍下qdrant向量数据库的安装。因为qdrant向量数据库只支持docker部署，所以在服务器上安装一下docker，下面是在......
客服焦虑与摆脱内耗
保持清醒、尊重客观规律；（保持学习和对事情的思考，大脑空白容易思考误差）焦虑来源于欲望，来源于比较，来源于追求很多的东西；急于求成的心理；不要太在意别人对自己的看法，未来自己的选择靠自己完全能处理好身边必要的人/事；不要在意别人的眼光，没必要去取悦于他人（上学时期，博得老师的关注和喜......
知识库AI机器人客服（基于ChatGPT3.5）对接-唯一客服系统文档中心
此功能是利用chatgpt训练企业知识开发个性化客服系统，可以上传自有数据，基于向量数据库与OpenAIEmbedding，以及OpenAI chat/completions接口，实现的基于自建知识库的ChatGPTAI客服功能管理员创建集合向量数据库集合，相当于数据表，需要管理员来创建开通。前往【菜单】【系统设置】......
访客接入-唯一客服系统文档中心
网站可以通过多种方式接入客服系统，直接跳转链接，或者在页面右下角弹窗访客链接可以在自己的网站接入，访客独立链接，入口形式可以完全自己写，只是跳转链接。例如下面的访客链接https://gofly.v1kf.com/chatIndex?kefu_id=taoshihan&ent_id=5url中可以传递的参数介绍visitor_id:......
基于Expression Lambda表达式树的通用复杂动态查询构楗器——《摘要篇》
基于表达式树的通用查询构造器常见的使用LinqExpression的做法这种代码众多，随便一搜就是，但几乎都是单个条件的，单层级的，只能简单组装，组装成如：Field_A=1andField_B=2OrField_C=3--或者Field_A=1and（Field_B=2OrField_C=3）是否可以灵活的查询条件组合&独立......