基础自然语言任务
词法任务:单词级别
- 单词的形态划分(Morphological analysis):将词的词根和词缀提取出来的任务
- 分词(Word segmentation):对于中文等语言,语句是由字符序列组成的,基本的自然语言处理任务是把字的序列分割成词的序列,也就是分词任务
- 符号化(Tokenization):对英文没有分词任务但是有一个很类似的任务——tokenization,如把Mr.Smith 分割成Mr. 和Smith;Wendy's分割成Wendy和's
- 词性标注(POS tagging):词性标注是把一句话里的每个词的句法特点标注出来
语义任务:单词级别
- 词义消歧(Word sense disambiguation)
- 隐喻检测(Metaphor)
- 检测词之间的语义关系(Sense relations between words)
- 类比(Analogy):发现词对和词对之间语义关系的关联性,如king-queen/man-woman/boy-girl
语义任务:句子级别
- 谓词论元关系(Predicate-argument relations):谓词可以看成动词,代表一个事件,论元代表事件的参与者或属性。判断谓词论元关系的任务也叫语义角色标注(semantic role labeling)
- 抽象语义表示(Abstract Meaning Representation):用语义图表示一句话,图里面每个节点表示一个语义单元,边代表语义单元之间的关系