data

data

时间：2023-04-23 16:35:50浏览次数：26

标签：生成过滤对话 Narrative relation 三元组 data

1、sota

取三元组：从常识性知识图谱中取去三元组：（head=事件1，relation=事件的关系，tail=事件2），比如Head: PersonX goes to an amusement park, Relation: xIntent, Tail: have fun riding attractions.

三元组转成句子：符号替换，比如PersonX替换成人名：PersonX goes to an amusement park, xIntent, have fun riding attractions

PLM 转述加细节，生成Narrative：David goes to an amusement park and has a blast riding the bumper cars, the Ferris wheel, and the roller coaster. He loves feeling the wind in his hair and screaming at the top of his lungs.

对于只有1个人参与的 Narrative，通过Narrative + prompt PLM引入一个新的对话者：“[narrative] following is a conversation in the scene between [PersonX’s name] and ...”

通过Narrative + 新的对话者 + prompt PLM 生成对话：[narrative] The following is a long in-depth conversation happening in the scene between David and his friend Sarah with multiple turns.\nDavid:”

此时就生成了初步数据集了

对话过滤1：利用模式匹配来过滤掉重复语句，缺少说话人，对话少于4轮的，大于20轮的，超过两个对话者的，像机器人说话的

对话过滤2：Canary模型过滤掉需要人工干预的对话，RewireAPI 过滤掉暴力的对话

对话过滤3：

通过 PLM 验证对话是否能反映出最初的三元组知识：[conversation]\n Q: [relation-tail question]\n A: ，比如 relation-tail question ：Did David intend to have fun riding attractions?，其中不同的relation，对应不同的 relation-tail question 的模板

通过 PLM 验证 Narrative 是否能反映出最初的三元组知识：[narrative]\n Q: [head question]\n A: ，比如 head question：David goes to an amusement park, is this true?

如果 Narrative 回答错误，则过滤掉姓名bias处理：原有对话可能某个姓名比重过多，则用库里面前10k个名字随机替换对话的所有名字

这样就生成最终数据集 soda，上述构造方法叫做 CO3

作者在 soda上训练了一个对话模型，叫 COSMO

2、ultrachat

包含三个子数据集：Questions about the World （开放领域的各种对话）、Writing and Creation（从头创作）、Assistance on Existent Materials（基于现有材料生成）

造 Questions about the World ：划分了30个普遍的大标题（meta topics）,每个大标题下生成1100+ 小标题（subtopics），对每个小标题产生10个问题，利用这10个问题使用 ChatGPT API 生成更多样的相关问题，采样问题，对每个问题使用2个ChatGPT API 生成3-7轮对话，一个扮演用户，一个用户回复，利用 prompt 让扮演用户的ChatGPT尽可能的模仿人类行为。最后对对话进行后处理

造 Writing and Creation ：划分20个写作类型，对于每个类型，设计200个不同的创作指令，其中 80%的指令要求说的更详细一点，根据指令用ChatGPT创作对话

造 Assistance on Existent Materials：从C4 数据集上取10w个材料，每个材料生成5个问题，将材料和对应的问题放在一起，生成对话

标签：生成,过滤,对话,Narrative,relation,三元组,data
From： https://www.cnblogs.com/pjishu/p/17346168.html

04-23: dataclasses使用方法
vehicle_seeds:List[int]=dataclasses.field(default_factory=list)dataclasses模块提供了一种简洁的方式来定义Python类在上面的代码中，使用dataclasses.field()函数为vehicle_seeds提供了一个默认工厂函数，该函数用于生成一个空的整数列表，即当vehicle_seeds没有被指......
scn增量备份恢复dataguard从库
环境:OS:Centos7DB:19.3.0.0 1.正常同步情况下的scn主从是一致的主库查询:SQL>selectSEQUENCE#,FIRST_CHANGE#,NEXT_CHANGE#,APPLIED,STATUSfromv$archived_logtwherename='tnsslavea';SEQUENCE#FIRST_CHANGE#NEXT_CHANGE#APPLIEDSTATUS----------------......
从应用看火山引擎 AB 测试 (DataTester) 的最佳实践
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群本文将从外部用户的角度介绍A/B测试平台的最佳实践。分享分为四部分，首先整体介绍A/B测试的应用场景，接下来结合字节内部和外部的一些应用来介绍各行业的最佳实践，最后分享在实际工作过程中，为......
从应用看火山引擎 AB 测试 (DataTester) 的最佳实践
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群本文将从外部用户的角度介绍A/B测试平台的最佳实践。分享分为四部分，首先整体介绍A/B测试的应用场景，接下来结合字节内部和外部的一些应用来介绍各行业的最佳实践，最后分享在实际工作过程中，......
Serieshe对象和Dataframe对象重新设置索引
1.Series重新设置索引并用指定数字填充NaN： 2.Series向前填充和向后填充： 3.DataFrame重新设置行列索引： ......
Data source is not a transactional CDS view [OData Exposure]
一个朋友遇到问题：给ABAPCDSview添加OData.publish:true注解激活之后，期望自动生成OData服务，但是遇到错误消息：DatasourceisnotatransactionalCDSview[ODataExposure]SAP社区上有人问类似的问题：https://answers.sap.com/questions/78804/cds-view-annotati......
golang net/rpc inject data to service function
在golang中，net/rpc库比较牛，只需要写函数，然后使用现成的ServerCodec就可以完成rpc服务了。但是有个问题，service函数的参数都是来自客户端的，如果服务器想为某个特殊的函数注入一些配置或状态参数，就不好弄了。解决方案：修改service函数，比如原来的参数是FuncArgs结构体，现在改成t......
数据对比DataCompare系统设计原理
1背景介绍在日常数据研发工作中，我们会遇到如下常见场景问题，其一为：数据测试人员要对产出多表的一致性进行检测，其二为：数据对账体系，如资金流和订单数据要保持一致，其三为：数据模型迁移过程中，要对迁移前后的数据进行对比，其四为：数据存储在不同库中，例如A存储到ODPS，B存储到ADB，其中AB库中数据......
2023-04-21：用go语言重写ffmpeg的metadata.c示例。
2023-04-21：用go语言重写ffmpeg的metadata.c示例。答案2023-04-21：这段Go代码演示了如何使用ffmpeg-go库中的函数来读取多媒体文件元数据，包括视频、音频等信息。它的大体过程如下：设置环境变量以加载FFmpeg动态链接库这里将FFmpeg库中的各个动态链接库路径添加到环境变......
keras图片生成器ImageDataGenerator参数详解
keras图片生成器ImageDataGeneratorkeras.preprocessing.image.ImageDataGenerator(featurewise_center=False,samplewise_center=False,featurewise_std_normalization=False,samplewise_std_normalization=False,zca_whitening=False,zca_epsilon=1e-......

相关文章

赞助商

阅读排行