自然语言处理的处理单元分为字(编码、输入法),词、短语(形态分析、汉语分词、词性标注、词义消歧、命名实体识别等),句子(句法分析、语块分析、语义角色标注),篇章(机器翻译、篇章推理、问答系统、自动摘要和情感分类等)
篇章中出现词汇链,是指一个相同的词在不同位置的重复出现,在抽取实体词汇链之后,抽取词汇链上每个词最近的谓词-论元,构成事件链,通过判断相邻事件之间的关系谓词-论元构成的有向图,回指是指一个词或短语在语篇中用于指代同一语篇中的另一个词或短语的概念,一组以名词回指(noun anaphora, NA)、代词回指(pronoun anaphora, PA)和零形回指(zero anaphora, ZA)形式的话题连接起来的小句或句子称为话题链,名词回指指的是之前出现的名词的简称,零形回指是指忽略主语但是隐含了主语是之前出现过的名词这一事实
篇章关系分析
- Anchor Identification:recognize the anchors from candidates,显式的包括关联词,非显式的包括标点符号(所有的分号、逗号、冒号、句号、破折号、省略号、问号和感叹号作为候选)
- Argument Extraction:extract argument pair according to the anchor,首先判断arg1和arg2是否在同一个句子SS(same sentence)还是不同的句子PS(previous sentence),,也就是确定句子范围,然后根据不同的情况进行seed pair generation和seed expansion
- Sense Classification:predict the type of sense between arg1 and arg2
- Argument Relabeling:re-label the labels of two arguments,Argument标签重新标记的目的是进一步确定Arg1和Arg2孰前孰后。Arg1和Arg2的前后关系是根据语义决定的, 而不是位置。例如在因果关系中,Arg1表示原因,Arg2表示结果。