首页 > 其他分享 >IE数据集:一种面向中国文学文本的语篇级命名实体识别与关系抽取数据集

IE数据集:一种面向中国文学文本的语篇级命名实体识别与关系抽取数据集

时间:2024-07-15 15:55:06浏览次数:12  
标签:关系 语篇级 标记 标签 实体 数据 识别 IE

Xu J, Wen J, Sun X, et al. A discourse-level named entity recognition and relation extraction dataset for chinese literature text[J]. arXiv preprint arXiv:1711.07010, 2017.

github链接:https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset

面向对象:中国文学文本、命名实体识别、关系抽取

贡献

  • 为了构建高质量的数据集,论文提出了两种标记方法来解决数据不一致的问题,包括启发式标记方法和机器辅助标记方法。
  • 与以前的句子级数据集不同,所提出的数据集基于语篇级,提供额外的上下文信息。

标注过程

  • 第一步:尝试根据定义的实体和关系进行注释,标记过程中发现了数据不一致问题。
  • 第二步:基于通用消歧规则的启发式标记。
  • 第三步:机器辅助标记。其核心思想是训练一个模型,以学习语料库子集上的注释指南,并在其余数据上生成预测标签。预测的标签被用来与黄金标签进行比较,以发现不一致的实体和关系。

实体

  • 每个实体都由 T 标签标识,该标签具有多个属性。
  • Id:标识文档中实体的唯一编号。它从 0 开始,并且每次在同一文档中识别新实体时都会递增。
  • 类型:实体标签之一。
  • 开始索引:实体的开始索引。它从 0 开始,每个字符递增。
  • 结束索引:实体的结束索引。它从 0 开始,每个字符递增。
  • 值:指可识别对象的词语。

关系

  • 每个关系都由 R 标记标识,该标签具有多个属性。
  • Id:标识文档中关系的唯一编号。它从 0 开始,每次在同一文档中识别新关系时都会递增。
  • Arg1 和 Arg2:与关系关联的两个实体。
  • 类型:关系标签之一。

标签:关系,语篇级,标记,标签,实体,数据,识别,IE
From: https://www.cnblogs.com/zinger/p/18303309

相关文章

  • 【电商API】缓存数据与数据库保持一致如何实现呢?
    2024年,电商真正跨入了新时代。在这个新时代,工具、方法、体系……都在升级,堪称一日千里。商家如何更好地顺应时代的变化?2024年,我给大家的建议总结为两句话。第一句是借平台的红利;第二句是建立自己的体系。如何利用电商API数据采集接口,完成自己的主流电商数据采集?前言如果项......
  • Exchange邮箱用户发邮件失败,提示“ Client does not have permissions to send as thi
    原贴https://www.cnblogs.com/dreamer-fish/p/16876232.htmlExchange邮箱用户发邮件失败,提示“Clientdoesnothavepermissionstosendasthissender”Exchange用户发邮件提示“5505.7.60SMTP;Clientdoesnothavepermissionstosendasthissender”处理方法:......
  • 金蝶物料数据时间轴
    procedureTDocumentStatus_Frame.loginKingdee;varRESTClient:TRESTClient;RESTRequest:TRESTRequest;RESTResponse:TRESTResponse;JSONArr,JSONArr1:TJSONArray;json_str:string;html:Tstrings;i:Integer;Status:string;FReqQty:string;FBillNo:string;......
  • Python 数据可视化与报告生成
    Python数据可视化与报告生成在当今的数据驱动世界中,数据可视化和报告生成是数据科学家、分析师和业务决策者不可或缺的工具。Python,作为一种强大且灵活的编程语言,通过其丰富的库和框架,为数据可视化和报告生成提供了广泛的支持。本文将深入探讨Python在数据可视化和报告生......
  • 大数据实训第七天笔记
    打包Mapreduce代码以及自定义类型打包wordCount类使用自定义的类型进行mapreduce计算打包wordCount类使用maven的assembly:assumbly插件会生成如下的target打包文件,选择下方的mapreduce_test-1.0-SNAPSHOT-jar-with-dependencies.jar,这是包含依赖文件的jar包,将其......
  • 2024年职业院校大数据实验室建设及大数据实训平台整体解决方案
    随着大数据技术的飞速发展,职业院校的大数据实验室建设与实训平台的打造成为教育领域关注的焦点。为了培养适应时代需求的专业人才,2024年的职业院校大数据实验室建设将遵循以下原则与策略:首要任务是明确实验室建设的学科定位,结合学校特色与行业优势,制定人才培养目标。这要求我......
  • TimescaleDB时间序列数据库
    TimescaleDB:这是一款支持完整sql开源的时间序列数据库。用处1、数据量庞大2、只做时间索引类的插入3、很少更新数据TimescaleDB的好处:基于时序优化自动分片(自动按时间、空间分片(chunk))全SQL接口支持垂直于横向扩展支持时间维度、空间维度自动分区。空间维度指属性字......
  • 为什么执行代码,烧入程序之后,电脑对单片机发送数据,但是单片机不反应
    #include"stm32f10x.h"      #include"Uart.h"#include<stdio.h>#include<stdarg.h>u8USART1_RX_BUF[64];  //接收缓冲,最大64个字节.//接收状态//bit7,接收完成标志//bit6,接收到0x0d//bit5~0,接收到的有效字节数目u16USART1_RX_STA=0;   ......
  • MySQL高级应用指南:从数据库设计到高可用架构
    引言欢迎阅读这篇MySQL文章本文旨在帮助你更深入地了解和掌握MySQL数据库的高级应用技术通过一些实际的开发案例和代码示例你将能够更好地运用MySQL进行复杂的数据操作和管理分类教程一数据库设计与优化在设计和优化数据库时需要考虑到表结构(TableStructure)索引(I......
  • view, cat, more, 和 less 的区别
    view,cat,more,和less都是用于查看文本文件内容的命令行工具,但它们各自有特点和使用场景:cat全名:concatenate(连接)功能:主要用于显示一个或多个文件的内容。如果文件很大,cat会一次性输出所有内容,可能不适合查看大文件,因为内容会快速滚动过屏幕,不易于阅读。用法示例:catfilename......