首页 > 其他分享 >EVA

EVA

时间:2022-08-15 18:34:25浏览次数:74  
标签:Pre Dialogue 删除 EVA Training 对话

EVA

主要贡献

  • 构建2021年最大中文对话数据集WDC-Dialogue,有1.4B context-response pairs。
  • 基于Transformer架构,搭建2021年最大中文对话系统,有2.8B的参数量

WDC-Dialogue Dataset

数据收集

  • Repost 转发
  • Comment 评论
  • Q&A 问答

数据清洗

  1. 删除平台相关的tag信息,例如Reply to @***
  2. 删除URL链接
  3. 将超过30轮的切分成小于30轮
  4. 将句子中重复超过6次的单词仅保留一份
  5. 删除回复过短/过长的对话
  6. 删除回复被判定为广告的对话
  7. 删除90% 3-gram为高频短语的对话
  8. 删除回复为通常反应的对话
  9. 删除回复和context一样的对话

另外还维护了一个违禁词表
(1)脏词、敏感词、方言;
(2)特殊主题词,例如罕见病毒或化合物的名称;
(3)名称、未知缩写;
(4)特殊符号和表情符号;
(5)与广告、图片、视频相关的文字等平台标志;

数据分析

image

Method

Model

典型的Transformer结构。

Tokenization

通过subword构建30000 token的词表。

Pre-Training Details

为了解决一些过短的对话,在EVA预训练中加入了短对话合并的操作。
image

EVA2.0

Reference

EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training
EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training

标签:Pre,Dialogue,删除,EVA,Training,对话
From: https://www.cnblogs.com/hyserendipity/p/16589255.html

相关文章

  • TDM 三部曲 (与 Deep Retrieval)
    推荐系统的主要目的是从海量物品库中高效检索用户最感兴趣的物品,既然是“海量”,意味着用户基本不可能浏览完所有的物品,所以才需要推荐系统来辅助用户高效获取感兴趣的信息......