目录
前言
序列标注 (Sequence Labeling/Tagging),其目标是为文本中的每一个 token 分配一个标签,因此 Transformers 库也将其称为 token 分类任务。常见的序列标注任务有:
- 命名实体识别NER(Named Entity Recognition) ,命名实体识别 NER 旨在识别出文本中诸如人物、地点、组织等实体,即为所有的 token 都打上实体标签(包含“非实体”)。
- 词性标注POS(Part-Of-Speech tagging),词性标注POS旨在为文本中的每一个词语标注上对应的词性,例如名词、动词、形容词等。
数据集说明
我们选择 1998 年人民日报语料库作为数据集,该语料库标注了大量的语言学信息,可以同时用于分词、NER 等任务。这里我们直接使用处理好的NER语料china-people-daily-ner-corpus.tar.gz。
该语料已经划分好了训练集、验证集和测试集,分别对应 example.train、example.dev 和 example.test 文件,包含 20864 / 2318 / 4636 个句子,数据集中句子之间采用空行分隔.语料采用IOB2格式进行标注,一行对应一个字:
海 O
钓 O
比 O
赛 O
地 O
点 O
在 O
厦 B-LOC
门 I-LOC
与 O
金 B-LOC
门 I-LOC
之 O
间 O
的 O
海 O
域 O
。 O
人民日报语料中标注有人物(PER)、地点(LOC) 和组织(ORG)三种实体类型,因此共有 7 种标签:
- “O”:非实体;
- “B-PER/I-PER”:人物实体的起始/中间;
- “B-LOC/I-LOC”:地点实体的起始/中间;
- “B-ORG/I-ORG”:组织实体的起始/中间。