自然语言处理综述
自然语言处理涉及许多领域,包括词汇、句法、语义和语用分析,文本分类、情感分析、自动摘要、机器 翻译和社会计算等。
自然语言处理主要分两个流程:自然语言理解(NLU)和自然语言生成(NLG)
处理流程大致可分为五步:
第一步获取语料。
第二步对语料进行预处理,其中包括语料清理、分词、 词性标注和去停用词等步骤。
第三步特征化,也就是向量化,主要把分词后的字和词表示成计算机可计算的类型(向 量),这样有助于较好的表达不同词之间的相似关系。
第四步模型训练,包括传统的有监督、半监督和无监督学习模型 等,可根据应用需求不同进行选择。
第五步对建模后的效果进行评价,常用的评测指标有准确率 (Precision)、召回率 (Recall)、F 值 (F-Measure)等。准确率是衡量检索系统的查准率;召回率是衡量检索系统的查全率;而 F 值是综合准确率和召回率用于反映整体的指标, 当 F 值较高时则说明试验方法有效。
基础研究
1、词法分析:主要包括分词、词性标注、命名实体识别和词义消歧。
2、句法分析:为了确定句子中各组成成分之间的关系,也就是其句法结构
3、语义分析(重点)
4、语用分析,主要是把文本中的描述和现实相对应,形成动 态的表意结构。
技术领域
1、信息抽取(IE):将嵌入在文本中的非结构化信息提取并转 换为结构化数据的过程
2、自动文摘:自动地对文本信息 进行提取、集合成简短摘要,实现字少意明。
NLP文本情感分析应用综述
1、基于情感字典的情感分析法
利用情感词典获取文档中 情感词的情感值,再通过加权计算来确定文档的整体情感倾向。
2、基于机器学习的情感分析法
构造 一个模型,输入大量有标签或者没有标签的语言信息,使用机器学习的算法,找出代价函数最小的结果作为输出。