首页 > 其他分享 >利用Transformers库解决序列标注问题

利用Transformers库解决序列标注问题

时间:2022-12-20 10:56:52浏览次数:60  
标签:LOC 词性 Transformers NER 实体 序列 语料 标注

目录

前言

序列标注 (Sequence Labeling/Tagging),其目标是为文本中的每一个 token 分配一个标签,因此 Transformers 库也将其称为 token 分类任务。常见的序列标注任务有:

  • 命名实体识别NER(Named Entity Recognition) ,命名实体识别 NER 旨在识别出文本中诸如人物、地点、组织等实体,即为所有的 token 都打上实体标签(包含“非实体”)
  • 词性标注POS(Part-Of-Speech tagging),词性标注POS旨在为文本中的每一个词语标注上对应的词性,例如名词、动词、形容词等。

数据集说明

我们选择 1998 年人民日报语料库作为数据集,该语料库标注了大量的语言学信息,可以同时用于分词、NER 等任务。这里我们直接使用处理好的NER语料china-people-daily-ner-corpus.tar.gz。
该语料已经划分好了训练集、验证集和测试集,分别对应 example.train、example.dev 和 example.test 文件,包含 20864 / 2318 / 4636 个句子,数据集中句子之间采用空行分隔.语料采用IOB2格式进行标注,一行对应一个字

海 O
钓 O
比 O
赛 O
地 O
点 O
在 O
厦 B-LOC
门 I-LOC
与 O
金 B-LOC
门 I-LOC
之 O
间 O
的 O
海 O
域 O
。 O

人民日报语料中标注有人物(PER)地点(LOC)组织(ORG)三种实体类型,因此共有 7 种标签:

  • “O”:非实体;
  • “B-PER/I-PER”:人物实体的起始/中间;
  • “B-LOC/I-LOC”:地点实体的起始/中间;
  • “B-ORG/I-ORG”:组织实体的起始/中间。

标签:LOC,词性,Transformers,NER,实体,序列,语料,标注
From: https://www.cnblogs.com/zjuhaohaoxuexi/p/16993727.html

相关文章