Xu J, Wen J, Sun X, et al. A discourse-level named entity recognition and relation extraction dataset for chinese literature text[J]. arXiv preprint arXiv:1711.07010, 2017.
github链接:https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset
面向对象:中国文学文本、命名实体识别、关系抽取
贡献
- 为了构建高质量的数据集,论文提出了两种标记方法来解决数据不一致的问题,包括启发式标记方法和机器辅助标记方法。
- 与以前的句子级数据集不同,所提出的数据集基于语篇级,提供额外的上下文信息。
标注过程
- 第一步:尝试根据定义的实体和关系进行注释,标记过程中发现了数据不一致问题。
- 第二步:基于通用消歧规则的启发式标记。
- 第三步:机器辅助标记。其核心思想是训练一个模型,以学习语料库子集上的注释指南,并在其余数据上生成预测标签。预测的标签被用来与黄金标签进行比较,以发现不一致的实体和关系。
实体
- 每个实体都由 T 标签标识,该标签具有多个属性。
- Id:标识文档中实体的唯一编号。它从 0 开始,并且每次在同一文档中识别新实体时都会递增。
- 类型:实体标签之一。
- 开始索引:实体的开始索引。它从 0 开始,每个字符递增。
- 结束索引:实体的结束索引。它从 0 开始,每个字符递增。
- 值:指可识别对象的词语。
关系
- 每个关系都由 R 标记标识,该标签具有多个属性。
- Id:标识文档中关系的唯一编号。它从 0 开始,每次在同一文档中识别新关系时都会递增。
- Arg1 和 Arg2:与关系关联的两个实体。
- 类型:关系标签之一。