首页 > 其他分享 >data

data

时间:2023-04-23 16:35:50浏览次数:26  
标签:生成 过滤 对话 Narrative relation 三元组 data

1、sota

取三元组:从常识性知识图谱中取去三元组:(head=事件1,relation=事件的关系,tail=事件2),比如Head: PersonX goes to an amusement park, Relation: xIntent, Tail: have fun riding attractions.

三元组转成句子:符号替换,比如PersonX替换成人名:PersonX goes to an amusement park, xIntent, have fun riding attractions

PLM 转述加细节,生成Narrative:David goes to an amusement park and has a blast riding the bumper cars, the Ferris wheel, and the roller coaster. He loves feeling the wind in his hair and screaming at the top of his lungs.

对于只有1个人参与的 Narrative,通过Narrative + prompt PLM引入一个新的对话者:“[narrative] following is a conversation in the scene between [PersonX’s name] and ...”

通过Narrative + 新的对话者 + prompt PLM 生成对话:[narrative] The following is a long in-depth conversation happening in the scene between David and his friend Sarah with multiple turns.\nDavid:”

此时就生成了初步数据集了

对话过滤1:利用模式匹配来过滤掉重复语句,缺少说话人,对话少于4轮的,大于20轮的,超过两个对话者的,像机器人说话的

对话过滤2:Canary模型过滤掉需要人工干预的对话,RewireAPI 过滤掉暴力的对话

对话过滤3:

通过 PLM 验证对话 是否能反映出最初的三元组知识:[conversation]\n    Q: [relation-tail question]\n   A:     , 比如 relation-tail question  :Did David intend to have fun riding attractions?,其中不同的relation,对应不同的 relation-tail question 的模板

通过 PLM 验证 Narrative 是否能反映出最初的三元组知识:[narrative]\n   Q: [head question]\n   A:      ,比如 head question:David goes to an amusement park, is this true?

如果 Narrative 回答错误,则过滤掉 姓名bias处理:原有对话可能某个姓名比重过多,则用库里面前10k个名字随机替换对话的所有名字

这样就生成最终数据集 soda,上述构造方法叫做 CO3

作者在 soda上训练了一个对话模型,叫 COSMO

2、ultrachat

包含三个子数据集:Questions about the World (开放领域的各种对话)、Writing and Creation(从头创作)、Assistance on Existent Materials(基于现有材料生成)

造 Questions about the World :划分了30个普遍的大标题(meta topics),每个大标题下生成1100+ 小标题(subtopics),对每个小标题产生10个问题,利用这10个问题使用 ChatGPT API 生成更多样的相关问题,采样问题,对每个问题使用2个ChatGPT API 生成3-7轮对话,一个扮演用户,一个用户回复,利用 prompt 让扮演用户的ChatGPT尽可能的模仿人类行为。最后对对话进行后处理

造 Writing and Creation : 划分20个写作类型,对于每个类型,设计200个不同的创作指令,其中 80%的指令要求说的更详细一点,根据指令用ChatGPT创作对话

造 Assistance on Existent Materials:从C4 数据集上取10w个材料,每个材料生成5个问题,将材料和对应的问题放在一起,生成对话

 

标签:生成,过滤,对话,Narrative,relation,三元组,data
From: https://www.cnblogs.com/pjishu/p/17346168.html

相关文章

  • 04-23: dataclasses使用方法
    vehicle_seeds:List[int]=dataclasses.field(default_factory=list)dataclasses模块提供了一种简洁的方式来定义Python类在上面的代码中,使用dataclasses.field()函数为vehicle_seeds提供了一个默认工厂函数,该函数用于生成一个空的整数列表,即当vehicle_seeds没有被指......
  • scn增量备份恢复dataguard从库
    环境:OS:Centos7DB:19.3.0.0 1.正常同步情况下的scn主从是一致的主库查询:SQL>selectSEQUENCE#,FIRST_CHANGE#,NEXT_CHANGE#,APPLIED,STATUSfromv$archived_logtwherename='tnsslavea';SEQUENCE#FIRST_CHANGE#NEXT_CHANGE#APPLIEDSTATUS----------------......
  • 从应用看火山引擎 AB 测试 (DataTester) 的最佳实践
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群本文将从外部用户的角度介绍A/B测试平台的最佳实践。分享分为四部分,首先整体介绍A/B测试的应用场景,接下来结合字节内部和外部的一些应用来介绍各行业的最佳实践,最后分享在实际工作过程中,为......
  • 从应用看火山引擎 AB 测试 (DataTester) 的最佳实践
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群本文将从外部用户的角度介绍A/B测试平台的最佳实践。分享分为四部分,首先整体介绍A/B测试的应用场景,接下来结合字节内部和外部的一些应用来介绍各行业的最佳实践,最后分享在实际工作过程中,......
  • Serieshe对象和Dataframe对象重新设置索引
    1.Series重新设置索引并用指定数字填充NaN: 2.Series向前填充和向后填充: 3.DataFrame重新设置行列索引: ......
  • Data source is not a transactional CDS view [OData Exposure]
    一个朋友遇到问题:给ABAPCDSview添加OData.publish:true注解激活之后,期望自动生成OData服务,但是遇到错误消息:DatasourceisnotatransactionalCDSview[ODataExposure]SAP社区上有人问类似的问题:https://answers.sap.com/questions/78804/cds-view-annotati......
  • golang net/rpc inject data to service function
    在golang中,net/rpc库比较牛,只需要写函数,然后使用现成的ServerCodec就可以完成rpc服务了。但是有个问题,service函数的参数都是来自客户端的,如果服务器想为某个特殊的函数注入一些配置或状态参数,就不好弄了。解决方案:修改service函数,比如原来的参数是FuncArgs结构体,现在改成t......
  • 数据对比DataCompare系统设计原理
    1背景介绍在日常数据研发工作中,我们会遇到如下常见场景问题,其一为:数据测试人员要对产出多表的一致性进行检测,其二为:数据对账体系,如资金流和订单数据要保持一致,其三为:数据模型迁移过程中,要对迁移前后的数据进行对比,其四为:数据存储在不同库中,例如A存储到ODPS,B存储到ADB,其中AB库中数据......
  • 2023-04-21:用go语言重写ffmpeg的metadata.c示例。
    2023-04-21:用go语言重写ffmpeg的metadata.c示例。答案2023-04-21:这段Go代码演示了如何使用ffmpeg-go库中的函数来读取多媒体文件元数据,包括视频、音频等信息。它的大体过程如下:设置环境变量以加载FFmpeg动态链接库这里将FFmpeg库中的各个动态链接库路径添加到环境变......
  • keras图片生成器ImageDataGenerator参数详解
    keras图片生成器ImageDataGeneratorkeras.preprocessing.image.ImageDataGenerator(featurewise_center=False,samplewise_center=False,featurewise_std_normalization=False,samplewise_std_normalization=False,zca_whitening=False,zca_epsilon=1e-......