首页 > 其他分享 >R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化

R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化

时间:2023-03-01 23:36:15浏览次数:48  
标签:NLP 文本 index read 情感 可视化 Words 自然语言

全文链接:http://tecdat.cn/?p=31702

原文出处:拓端数据部落公众号

情感分析,就是根据一段文本,分析其表达情感的技术。比较简单的情感分析,能够辨别文本内容是积极的还是消极的(褒义/贬义);比较复杂的情感分析,能够知道这些文字是否流露出恐惧、生气、狂喜等细致入微的情感。此外,情感的二元特性还可以表达为是否含有较大的感情波动。也就是说,狂喜和暴怒都属于感情波动,而宠辱不惊则属于稳定的情感状态。

研究目的

本文基于R语言的自然语言处理技术,针对企业的财务信息、产品质量等文本信息,帮助客户对企业和产品进行情感分析和情感分类,并将这些数据可视化呈现。本文选择了A股上市公司相关数据,通过构建R语言的文本情感分析模型对文本情感进行分析,并以此为基础对企业进行情感分类。   附件说明:其中基础词典是要通过文本挖掘的结果扩展的词典了,也是研究的主要目的(分词的时候可以用到);

image.png

image.png

image.png

image.png

image.png

image.png

image.png

语料库资源是要进行文本挖掘的数据源。

image.png

image.png

image.png

研究的目的就是在文本分析结果的基础上扩展用户词典,这些需要在文本挖掘的基础上进行扩展。其中语料库一共是10个文件,需要的是一个文件出一个结果。最后是要对比这10个文件的。还有就是语料库是pdf格式。

出现的结果应该是类似这种的:

 

中文财务关键词05年06年07年08年
负面词 184 107    
正面词 48 66    
不确定词 22 19    
诉权词 57 31  

读取词库数据


Litigious=read.table("Litigious Words.txt")  
Strong=read.table("Modal Words Strong.txt")  
Weak=read.table("Modal Words Weak .txt")  
Positive=read.table("Positive Words.txt")  
Uncertainty=read.table("Uncertainty Words.txt")  
Negative=read.table("Negative Words .txt")

文本清理和分词


qrxdata=gsub("\n","",qrxdata)  
words= lapply(X=qrxdata, FUN=segmentCN) ;

初始化统计结果

x=words  
pwords=positive  
nwords=negative  
Litigious=Litigious  
Strong=Strong  
Weak=Weak  
Uncertainty=Uncertainty  
  
  
npwords=0  
nnwords=0  
nLitigious=0  
nStrong=0  
nWeak=0  
nUncertainty=0
emotionType <-numeric(0)  
xLen <-length(x)  
emotionType[1:xLen]<- 0  
index <- 1

词法分析

词法分析。它的原理非常简单,事前需要定义一个情感词典。比如“喜欢”这个词我们定义为1分。那么“我喜欢你”这句话,“我”和“你”都是中性词,均为0分,“喜欢”为1分,这句话的总分就是1分。“我喜欢你,但讨厌他”,这样一句话中有“讨厌”这个词,在情感词典中分数为“-1”,那么整句话的得分就是0。这样,我们就可以对每一个文本进行分词,然后使用内连接(inner join)来提取其中的情感词语,并根据情感词语的得分,来评估这段文本的情感得分。


for(index in 1: xLen){  
  x[[index]]=unique(x[[index]])  
  yLen <-length(x[[index]])  
  index2 <- 1  
  for(index2 in 1 :yLen){  
    if(length(pwords[pwords==x[[index]][index2]]) >= 1){  
      i=pwords[pwords==x[[index]][index2]]  
      npwords=npwords+length(pwords[pwords==x[[index]][index2]])  
      if(length(i)==0)next;  
      duanluo=substr(qrxdata[index],regexpr(i,qrxdata[index])[1]-20,regexpr(i,qrxdata[index])[1]+20)  
      if(regexpr(i,duanluo)[1]<0 )next;  
      cat(studentID,"\t",i," \t","DOC",index,"\t ","pos"," \t",duanluo," \t",length(pwords[pwords==x[[index]][index2]])/length(x[[index]])," \

按年份和词性分类汇总成表格

1=data.frame("正面词"=npwords,"负面词"=nnwords,"不确定词"=nUncertainty,"诉权词"=nLitigious,  
                "强语气词"=nStrong,"弱语气词"=nWeak)  
  


 =rbind(,1)  
  
  

image.png

ggplot可视化

将每个文档的词性输出,并按照词性和年份绘制变化趋势:

image.png

image.png


the-hidden-value-of-voice-conversations-part-2-reaping-the-rewards-1536x1536.webp

最受欢迎的见解

1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组

2.R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

3.r语言文本挖掘tf-idf主题建模,情感分析n-gram建模研究

4.游记数据感知旅游目的地形象

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型:数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析

标签:NLP,文本,index,read,情感,可视化,Words,自然语言
From: https://www.cnblogs.com/tecdat/p/17170330.html

相关文章

  • PyQt5 自然语言处理学习笔记(一)
    前言最近想将自然语言处理的项目进行可视化,尽量还是使用回Python语言,因此打算用PyQT来实现相应的功能。入门案例一个简单的自然语言处理的demo,使用PyQt框架,该demo可以读......
  • dokuwiki编辑器可视化
    ​ ueditor粘贴不能粘贴word中的图片是一个很头疼的问题,在我们的业务场景中客户要求必须使用ueditor并且支持word的图片粘贴,因为这个需求头疼了半个月,因为前端方面因为安......
  • 实践,制作一个高扩展、可视化低代码前端,详实、完整
    RxEditor是一款开源企业级可视化低代码前端,目标是可以编辑所有HTML基础的组件。比如支持React、VUE、小程序等,目前仅实现了React版。RxEditor运行快照:项目地址:http......
  • R语言地理可视化:中国国内航线航班信息统计、绘制分布夜景图
    全文链接:http://tecdat.cn/?p=31693原文出处:拓端数据部落公众号最近,有一种说法:“中国经济发展的命脉就是石油和航线”。因此,航线的重要性不言而喻。近年来,中国的航运业......
  • Java分词器比较(ansj、hanlp、ik)
    Java分词器比较(ansj、hanlp、ik)一、分词工具ansj、hanlp、ik二、优缺点1.ansj优点:提供多种分词方式可直接根据内部词库分出人名、机构等信息可构造多......
  • MMYOLO 想你所想:训练过程可视化
    前言 本文将结合MMYOLO,对训练过程中常见的可视化需求进行详细描述。本文转载自OpenMMLab来源|带来新知识的欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、......
  • R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析|附代码数据
    全文链接:http://tecdat.cn/?p=22596最近我们被客户要求撰写关于预测心脏病的研究报告,包括一些图形和统计输出。本报告是对心脏研究的机器学习/数据科学调查分析。更具体......
  • ChatGPT:强大的自然语言处理和对话系统技术
     ChatGPT是OpenAI开发的一种大型语言模型,它是用机器学习算法训练出来的。ChatGPT可以用来与人类交互,并生成自然语言文本,具有自然语言处理和对话系统的能力。作为一......
  • 【NLP】最大概率法(负对数相加)
    自然语言处理中最大概率法教材算法实现 ​​把概率的相乘转为负对数的相加。​​词典的txt:https://pan.baidu.com/s/1ARx3-fetzOmrw2c8mVAK8w提取码:hts4importmathdefloa......
  • 可视化之数据可视化最强工具推荐
    在数据科学领域,数据可视化不仅仅是一个词。这是一个完整的过程,为我们今天面临的许多问题提供了解决方案。无论是我们需要分析的大数据,还是我们需要为利益相关者制作的演示......