自然语言处理综述

自然语言处理涉及许多领域，包括词汇、句法、语义和语用分析，文本分类、情感分析、自动摘要、机器翻译和社会计算等。
自然语言处理主要分两个流程：自然语言理解（NLU）和自然语言生成（NLG）
处理流程大致可分为五步：
第一步获取语料。
第二步对语料进行预处理，其中包括语料清理、分词、词性标注和去停用词等步骤。
第三步特征化，也就是向量化，主要把分词后的字和词表示成计算机可计算的类型（向量），这样有助于较好的表达不同词之间的相似关系。
第四步模型训练，包括传统的有监督、半监督和无监督学习模型等，可根据应用需求不同进行选择。
第五步对建模后的效果进行评价，常用的评测指标有准确率 (Precision)、召回率 (Recall)、F 值 (F-Measure）等。准确率是衡量检索系统的查准率；召回率是衡量检索系统的查全率；而 F 值是综合准确率和召回率用于反映整体的指标，当 F 值较高时则说明试验方法有效。

基础研究

1、词法分析：主要包括分词、词性标注、命名实体识别和词义消歧。
2、句法分析:为了确定句子中各组成成分之间的关系，也就是其句法结构
3、语义分析（重点）
4、语用分析，主要是把文本中的描述和现实相对应，形成动态的表意结构。

技术领域

1、信息抽取（IE)：将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程
2、自动文摘：自动地对文本信息进行提取、集合成简短摘要，实现字少意明。

NLP文本情感分析应用综述

1、基于情感字典的情感分析法

利用情感词典获取文档中情感词的情感值，再通过加权计算来确定文档的整体情感倾向。

2、基于机器学习的情感分析法

构造一个模型，输入大量有标签或者没有标签的语言信息，使用机器学习的算法，找出代价函数最小的结果作为输出。

3、基于深度学习的情感分析法

标签：文本,综述,笔记,情感,自然语言,语料,分词
From： https://www.cnblogs.com/erdong911/p/18424371

目标检测笔记
AlexNet2012年，AlexNet[4]的出现让全世界见证了卷积神经网络（ConvolutionalNeuralNetworks,CNN）的强大特征学习能力，传统的手工设计特征方式逐渐被取代，目标检测也随之进入深度学习时代。以下来源：Title：目标检测综述：从传统方法到深度学习目标检测要求高准确率的分类，还需要精确......
CL260 学习笔记（三）
Ceph存储池如果PG太多，对象太少，会造成大量的空间浪费；如果PG太少，对象太多，寻找对象的时间过长，影响性能。cephosdpoolcreate--helpusage那一行显示的是存储池内所有pg的容量之和。这里提出一个问题：pg_num是32个，那么osd上有多少个pg？这是一个replicated（副本）池，size是3，表示是3......
Vue学习笔记6：分别使用纯JavaScript和Vue的v-if 指令来有条件地渲染网页元素
0缘起有时我们的网页需要根据需要用户的选择展示不同的页面元素。例如：你喜欢哪种水果？ <label> <inputtype="radio"value="苹果"name="fruit"/> 苹果 </label> <label> <inputtype="ra......
【论文阅读笔记】【Hand Pose Estimation-Interacting Hand】 MeMaHand: Exploiting M
CVPR2023读论文思考的问题论文试图解决什么问题？写作背景是什么？问题：如何在双手识别中集成paramatic(MANO)和non-paramatichand(GCN)representation方法的优点？背景：基于手部模型MANO的方法能够产生合理且稳定的手型，但手部的网格不够细粒度和灵活基于GCN......
[神经网络与深度学习笔记]PCA降维
PCA降维PCA是一种无监督降维算法，它是最常用的降维算法之一，可以很好的解决因变量太多而复杂性，计算量增大的弊端。本质上讲，PCA就是将高维的数据通过线性变换投影的方式映射到低维空间上去，并且保证在投影的维度上，原数据的信息量最大（损失最小）。PCA的具体步骤1.特征中心化。每一维......
[神经网络与深度学习笔记]LDA降维
LDA降维LinearDiscriminantAnalysis线性判别分析，是一种有监督的线性降维算法。与PCA保持数据信息不同，LDA的目标是将原始数据投影到低维空间，尽量使同一类的数据聚集，不同类的数据尽可能分散步骤：计算类内散度矩阵\(S_b\)计算类间散度矩阵\(S_w\)计算矩阵\(S_w^{-1}S_b\)对矩......
代码整洁之道--读书笔记(14)
代码整洁之道简介：本书是编程大师“Bob大叔”40余年编程生涯的心得体会的总结，讲解要成为真正专业的程序员需要具备什么样的态度，需要遵循什么样的原则，需要采取什么样的行动。作者以自己以及身边的同事走过的弯路、犯过的错误为例，意在为后来者引路，助其职业生涯迈上更高台阶。本......
VulnHub-Narak靶机笔记
Narak靶机笔记概述Narak是一台Vulnhub的靶机，其中有简单的tftp和webdav的利用，以及motd文件的一些知识靶机地址：https://pan.baidu.com/s/1PbPrGJQHxsvGYrAN1k1New?pwd=a7kv提取码:a7kv当然你也可以去Vulnhub官网下载一、nmap扫描1）主机发现sudonmap-sn192.168.84.0/24......
【学习笔记】数据库系统概论之基础篇（二）关系模型
教材：数据库系统概论（第6版）王珊,杜小勇,陈红编著目录一、关系模型的数据结构及形式化定义关系关系模式ER图→关系模型（概念模型→关系模型）关系数据库二、关系的完整性实体完整性参照完整性用户定义的完整性三、关系操作四、关系代数传统的集合运算专门的关......
FFmpeg开发笔记（五十三）移动端的国产直播录制工具EasyPusher
EasyPusher是一款国产的RTSP直播录制推流客户端工具，它支持Windows、Linux、Android、iOS等操作系统。EasyPusher采用RTSP推流协议，其中安卓版EasyPusher的Github托管地址为https://github.com/EasyDarwin/EasyPusher-Android。不过EasyPusher有好几年没更新了，尤其安卓版的EasyP......

自然语言处理综述笔记