首页 > 其他分享 >客服对话转录摘要竞赛的方法

客服对话转录摘要竞赛的方法

时间:2023-05-18 16:56:25浏览次数:42  
标签:1024 训练 客服 模型 摘要 转录 句子 输入

1. 输入内容会带有一定的转写错误,会对模型的训练造成一个的干扰

用了input word replace方法,将一部分输入的词随机替换成其他词表中的词,这种类似于对抗训练的方法能够极大增加模型的鲁棒性,并且使得模型有一定的识别转写错误、纠正转写错误的能力。

input word replace

因为输入是语音转文字自动生成的,所以输入中会存在不少噪音。
这里作者对输入中的一部分词进行随机替换,显式增加噪音让模型对噪音内容更加熟悉。
此外,在Decoder端,因为训练输入正确答案,而测试时使用的生成的带有错误的内容会造成曝光误差的问题,所以我们将Decoder端也作一些词的随机替换。

2. 模型的输入-输出比较长

针对长输入问题,我们使用三种方法来将长输入进行压缩,分别是截断、先抽取后生成、渐进增长训练。

2.1 截断

根据摘要的核心内容进行截断。核心内容没有规律性,可以通过做实验验证

  1. 前1024字符作为输入。

  2. 中间1024字符作为输入。

  3. 后1024字符作为输入。

  4. 前512字符+后512字符作为输入

2.2 先抽取后生成

对于长文本输入问题,最理想的方法就是首先通过抽取的方式抽取出重要的句子,接着使用生成的方式生成最终的答案。

这里使用客服和用户的每一次对话作为句子,然后使用分类的方式判断该句是否应该被选择。
在构造训练集时,我们选择和摘要最匹配的前30%句子作为答案。
抽取模型方面,我们首先使用BERT来表示每句话,然后使用一个多层的transformer encoder进行句子间的交互,最后使用一个二分类器判断是否抽取该句。
模型训练完成之后,我们根据分类结果,选取按照预测结构对句子进行排序,并且从高到低选取总长度不超过1024的句子作为输入。

2.3 渐进式增长(?)

为了加快速度以及更加充分训练,我们首先使用输入长度1024进行训练,接着在1024长度训练的基础上将长度增长到2048。这种方式目前已经广泛用在预训练中,因为transformer模型对于输入长度L为平方级别的复杂度,所以渐进增长输入长度即不会带来效果的损失,也能够极大提高模型训练速度。

3. 模型训练数据较少

T5-pegasus模型在450G的大规模无监督语料上进行预训练,这种预训练方法能够很好地学习通用知识,使得模型能够在较少的训练数据上得到很好的下游任务模型。

T5模型使用Seq2Seq的架构,模型包括一个encoder和一个decoder,并且提出了一种新的在decoder端预测连续mlm片段的方法。而针对于摘要任务,Google提出了pegasus预训练模型,该模型专门为摘要任务设计的无监督预训练任务,pegasus预训练任务使用文章中的关键句作为训练目标,文章其他句子作为输入,这种关键句子生成的方式和摘要任务非常契合。

参考:https://www.zhihu.com/question/306887936/answer/2752498215

标签:1024,训练,客服,模型,摘要,转录,句子,输入
From: https://www.cnblogs.com/charon52HZ/p/17412460.html

相关文章

  • 知识库AI机器人客服接口对接-唯一客服系统文档中心
    如果你的需求仅仅是对接自训练的ChatGPT接口,实现自己的个性化机器人,那么可以看看下面的个性化ChatGPT调用接口前提条件是已经搭建好了知识库服务,该服务默认监听端口8083chat接口地址POST http://127.0.0.1:8083/data_collection/searchStream请求头必须是form形式,因为接收数据......
  • Linux 中 shell 脚本实现根据gff统计每一个基因的转录本数目
     001、生成基因名称的列表awk-F"\t"'$3=="gene"&&$NF~/gene=/{print$NF}'chr1.gff|sed's/\(.*\)\(gene=[^;]\+\)\(.*\)/\2/'|sort|uniq>gene.list 002、 ......
  • 易基因:多组学关联分析及组学分子实验验证方法(表观组+转录组+微生物组)|干货系列
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。生物过程具有复杂性和整体性,单组学数据难以系统全面解析复杂生理过程的分子调控机制。而多组学(Multi-omics)联合分析可同时实现从“因”和“果”两个层面研究生物学问题,并对其相关性进行验证。高通量技术的发展,通过对......
  • 微信公众号服务号客服对接-唯一客服系统文档中心
    微信公众号客服功能,需要公众号为认证的服务号,可以实现公众号模板消息提醒,网页授权获取到微信的昵称头像,机器人或AI自动回复功能等微信公众号后台设置【设置与开发】【基本配置】设置好公众号的AppIDAppSecretIP白名单【设置与开发】【基本配置】【服务器配置】启用并且完成......
  • 访客智能分配-唯一客服系统文档中心
    账号介绍唯一客服系统账号分为三个等级:超级管理员、商户主账号、商户子账号。其中超级管理员对商户都是透明的不可见,每个商户账号之间是独立的互相不可见,商户下可创建商户子账号。系统本身是属于多商家多坐席SaaS客服系统分配原则访客智能分配的意思是,当访客打开聊天界面,会自......
  • 知识库AI部署搭建-唯一客服系统文档中心
    唯一客服系统知识库服务,支持向量形式个性化训练ChatGPT,该服务是独立搭建的,下面是一些介绍安装docker现在基于GPT相应实现自建本地知识库,必不可少的就是向量数据库,现在介绍下qdrant向量数据库的安装。因为qdrant向量数据库只支持docker部署,所以在服务器上安装一下docker,下面是在......
  • 客服焦虑与摆脱内耗
    保持清醒、尊重客观规律;(保持学习和对事情的思考,大脑空白容易思考误差)焦虑来源于欲望,来源于比较,来源于追求很多的东西;急于求成的心理;不要太在意别人对自己的看法,未来自己的选择靠自己完全能处理好身边必要的人/事;不要在意别人的眼光,没必要去取悦于他人(上学时期,博得老师的关注和喜......
  • 知识库AI机器人客服(基于ChatGPT3.5)对接-唯一客服系统文档中心
    此功能是利用chatgpt训练企业知识开发个性化客服系统,可以上传自有数据,基于向量数据库与OpenAIEmbedding,以及OpenAI chat/completions接口,实现的基于自建知识库的ChatGPTAI客服功能管理员创建集合向量数据库集合,相当于数据表,需要管理员来创建开通。前往【菜单】【系统设置】......
  • 访客接入-唯一客服系统文档中心
    网站可以通过多种方式接入客服系统,直接跳转链接,或者在页面右下角弹窗访客链接可以在自己的网站接入,访客独立链接,入口形式可以完全自己写,只是跳转链接。例如下面的访客链接https://gofly.v1kf.com/chatIndex?kefu_id=taoshihan&ent_id=5url中可以传递的参数介绍visitor_id:......
  • 基于Expression Lambda表达式树的通用复杂动态查询构楗器——《摘要篇》
    基于表达式树的通用查询构造器常见的使用LinqExpression的做法这种代码众多,随便一搜就是, 但几乎都是单个条件的,单层级的,只能简单组装,组装成如:Field_A=1andField_B=2OrField_C=3--或者Field_A=1and(Field_B=2OrField_C=3) 是否可以灵活的查询条件组合&独立......