信息抽取任务Information Extraction
信息抽取任务关心四大类对象:
- 实体Entitiy
- 关系Relation
- 事件Events
- 情感Sentiment
实体Entity
一段文字中的人名、地名、机构名等专有名词叫做命名实体,命名实体识别是一个自然语言处理任务,从一句话中自动标注命名实体的位置和类型。
关系Relation
关系代表两个或者多个实体之间的内在关联知识。关系抽取识别命名实体之间的特定关联。
实体和关系知识可以组成知识图谱,知识图谱是一种数据库的格式,可以用图结构表示知识,图中的节点代表实体,节点之间的边代表关系知识。
知识图谱相关的任务
- 实体链接Entity linking:研究如何把文本中的实体和知识图谱中的实体进行关联,有助于更准确理解文本的含义
- 命名实体规范化 Named entity normalization:一个实体可能有多种表示,如USA、The US、The states、America。将多种表示统一成一种形式可以帮助下游任务。
- 链接预测(知识图谱补全)Link prediction(knowledge graph completion):知识图谱都是不完备的,但是很多知识可以从知识图谱已有的事实中推理得到。知识图谱补全就是通过已有的知识图谱判断事实是否成立的任务。
事件Event
事件有不同的类型,从文本中抽取事件需要关键事件对应的触发词,如外交访问事件与visit有关。一个事件除了触发词还有相关的属性,如访问者、访问对象。
- 事件抽取(Event Extraction)是信息抽取中的一个重要任务,从文本中检测触发词并且判断对应的事件类型和事件属性。
- 新事件探测(New Event detection)通过社会媒体中的文本,自动发现与自然灾害、流行病爆发相关的讨论内容,为防范做准备
- 事实性检测(Event factuality prediction)是判断事件可行程度的信息抽取任务。
- 事件时间顺序推断(Event time Extraction)是从文本的叙述顺序中自动抽取和恢复事件原先的事件顺序的任务