首页 > 其他分享 >自然语言处理综述笔记

自然语言处理综述笔记

时间:2024-09-21 18:46:21浏览次数:7  
标签:文本 综述 笔记 情感 自然语言 语料 分词

自然语言处理综述

自然语言处理涉及许多领域,包括词汇、句法、语义和语用分析,文本分类、情感分析、自动摘要、机器 翻译和社会计算等。
自然语言处理主要分两个流程:自然语言理解(NLU)和自然语言生成(NLG)
处理流程大致可分为五步:
第一步获取语料。
第二步对语料进行预处理,其中包括语料清理、分词、 词性标注和去停用词等步骤。
第三步特征化,也就是向量化,主要把分词后的字和词表示成计算机可计算的类型(向 量),这样有助于较好的表达不同词之间的相似关系。
第四步模型训练,包括传统的有监督、半监督和无监督学习模型 等,可根据应用需求不同进行选择。
第五步对建模后的效果进行评价,常用的评测指标有准确率 (Precision)、召回率 (Recall)、F 值 (F-Measure)等。准确率是衡量检索系统的查准率;召回率是衡量检索系统的查全率;而 F 值是综合准确率和召回率用于反映整体的指标, 当 F 值较高时则说明试验方法有效。

基础研究

1、词法分析:主要包括分词、词性标注、命名实体识别和词义消歧。
2、句法分析:为了确定句子中各组成成分之间的关系,也就是其句法结构
3、语义分析(重点)
4、语用分析,主要是把文本中的描述和现实相对应,形成动 态的表意结构。

技术领域

1、信息抽取(IE):将嵌入在文本中的非结构化信息提取并转 换为结构化数据的过程
2、自动文摘:自动地对文本信息 进行提取、集合成简短摘要,实现字少意明。

NLP文本情感分析应用综述

1、基于情感字典的情感分析法

利用情感词典获取文档中 情感词的情感值,再通过加权计算来确定文档的整体情感倾向。

2、基于机器学习的情感分析法

构造 一个模型,输入大量有标签或者没有标签的语言信息,使用机器学习的算法,找出代价函数最小的结果作为输出。

3、基于深度学习的情感分析法

标签:文本,综述,笔记,情感,自然语言,语料,分词
From: https://www.cnblogs.com/erdong911/p/18424371

相关文章

  • 目标检测笔记
    AlexNet2012年,AlexNet[4]的出现让全世界见证了卷积神经网络(ConvolutionalNeuralNetworks,CNN)的强大特征学习能力,传统的手工设计特征方式逐渐被取代,目标检测也随之进入深度学习时代。以下来源:Title:目标检测综述:从传统方法到深度学习目标检测要求高准确率的分类,还需要精确......
  • CL260 学习笔记(三)
    Ceph存储池如果PG太多,对象太少,会造成大量的空间浪费;如果PG太少,对象太多,寻找对象的时间过长,影响性能。cephosdpoolcreate--helpusage那一行显示的是存储池内所有pg的容量之和。这里提出一个问题:pg_num是32个,那么osd上有多少个pg?这是一个replicated(副本)池,size是3,表示是3......
  • Vue学习笔记6:分别使用纯JavaScript和Vue的v-if 指令来有条件地渲染网页元素
    0缘起有时我们的网页需要根据需要用户的选择展示不同的页面元素。例如:<p>你喜欢哪种水果?</p><p> <label> <inputtype="radio"value="苹果"name="fruit"/> 苹果 </label></p><p> <label> <inputtype="ra......
  • 【论文阅读笔记】【Hand Pose Estimation-Interacting Hand】 MeMaHand: Exploiting M
    CVPR2023读论文思考的问题论文试图解决什么问题?写作背景是什么?问题:如何在双手识别中集成paramatic(MANO)和non-paramatichand(GCN)representation方法的优点?背景:基于手部模型MANO的方法能够产生合理且稳定的手型,但手部的网格不够细粒度和灵活基于GCN......
  • [神经网络与深度学习笔记]PCA降维
    PCA降维PCA是一种无监督降维算法,它是最常用的降维算法之一,可以很好的解决因变量太多而复杂性,计算量增大的弊端。本质上讲,PCA就是将高维的数据通过线性变换投影的方式映射到低维空间上去,并且保证在投影的维度上,原数据的信息量最大(损失最小)。PCA的具体步骤1.特征中心化。每一维......
  • [神经网络与深度学习笔记]LDA降维
    LDA降维LinearDiscriminantAnalysis线性判别分析,是一种有监督的线性降维算法。与PCA保持数据信息不同,LDA的目标是将原始数据投影到低维空间,尽量使同一类的数据聚集,不同类的数据尽可能分散步骤:计算类内散度矩阵\(S_b\)计算类间散度矩阵\(S_w\)计算矩阵\(S_w^{-1}S_b\)对矩......
  • 代码整洁之道--读书笔记(14)
    代码整洁之道简介:本书是编程大师“Bob大叔”40余年编程生涯的心得体会的总结,讲解要成为真正专业的程序员需要具备什么样的态度,需要遵循什么样的原则,需要采取什么样的行动。作者以自己以及身边的同事走过的弯路、犯过的错误为例,意在为后来者引路,助其职业生涯迈上更高台阶。本......
  • VulnHub-Narak靶机笔记
    Narak靶机笔记概述Narak是一台Vulnhub的靶机,其中有简单的tftp和webdav的利用,以及motd文件的一些知识靶机地址:https://pan.baidu.com/s/1PbPrGJQHxsvGYrAN1k1New?pwd=a7kv提取码:a7kv当然你也可以去Vulnhub官网下载一、nmap扫描1)主机发现sudonmap-sn192.168.84.0/24......
  • 【学习笔记】数据库系统概论之基础篇(二)关系模型
    教材:数据库系统概论(第6版)王珊,杜小勇,陈红编著目录一、关系模型的数据结构及形式化定义关系关系模式ER图→关系模型(概念模型→关系模型)关系数据库二、关系的完整性实体完整性参照完整性用户定义的完整性三、关系操作四、关系代数传统的集合运算   专门的关......
  • FFmpeg开发笔记(五十三)移动端的国产直播录制工具EasyPusher
    ​EasyPusher是一款国产的RTSP直播录制推流客户端工具,它支持Windows、Linux、Android、iOS等操作系统。EasyPusher采用RTSP推流协议,其中安卓版EasyPusher的Github托管地址为https://github.com/EasyDarwin/EasyPusher-Android。不过EasyPusher有好几年没更新了,尤其安卓版的EasyP......