序列标注,给定一个序列,找出序列中每个元素对应的标签。
中文分词、词性标注、命名实体识别都可以转化为序列标注问题。
词法分析:中文分词、词性标注、命名实体识别
中文分词:将文本分隔为有意义的词语
词性标注:确定每个词语的类别和浅层的歧义消除
命名实体识别:识别出较长的专有名词(人名、地名、机构名)
信息抽取、文本分类与文本聚类、句法分析(给译文重新排序)、语义分析与篇章分析(消除歧义)
语料库
词语种数:语料库中有多少个不重复的词语
总词频:所有词语的词频之和
词语种数和总词频分别用来衡量语料库用语的丰富程度和规模大小。
N元语法模型
N元语法模型利用前面N-1个单词来预测下一个单词。
单词序列模型是概率模型,概率模型是给单词的符号串指派概率的方法,不论是计算整个句子的概率,还是在一个序列中预测下一个单词的概率,都要使用概率模型。
马尔科夫模型是一种概率模型,假设不必查看很远的过去就可以遇见某个单位的将来概率。在二元语法模型的基础上,我们可以推广到三元语法模型(看过去2个单词),再推广到N元语法模型(看过去N-1个单词)。
将每个汉字组词时所处的位置(首尾等)作为标签,则可以将中文分词转化为给定给定汉字序列找出标签序列的问题,字构词是 序列标注 模型的一种应用。
HMM(Hidden Markov Model) 和 CRF
隐马尔可夫模型 和 条件随机场
马尔可夫假设:每个事件的发生概率只取决于前一个事件。
将满足马尔科夫假设的连续多个事件串联在一起,就构成了马尔可夫链。在NLP语境下,马尔可夫模型可以具象为二元语法模型。
隐马尔可夫模型是描述两个时序序列联合分布的概率模型,外界可见的称为观测序列,外界不可见的称为状态序列。
隐马尔可夫链包含状态序列和观测序列,满足两个假设:
1.当前状态仅仅依赖于前一个状态;
2.任意时刻的观测只依赖于该时刻的状态,与其他时刻的状态或观测独立无关。
标签:NLP,概率模型,模型,单词,概念,马尔可夫,序列,标注 From: https://www.cnblogs.com/pass-ion/p/17679243.html