首页 > 其他分享 >自然语言处理NLP:情感分析疫情下的新闻数据|附代码数据

自然语言处理NLP:情感分析疫情下的新闻数据|附代码数据

时间:2024-03-25 23:23:25浏览次数:38  
标签:分析 NLP 文本 疫情 新闻 主题 情感 自然语言 数据

原文链接:http://tecdat.cn/?p=11583

新冠肺炎的爆发让今年的春节与往常不同。与此同时,新闻记录下了这场疫情发展的时间轴  点击文末“阅读原文”获取完整代码数据******** )。

为此我们分析了疫情相关的新闻内容、发布时期以及发布内容的主题和情感倾向这些方面的数据,希望通过这些数据,能对这场疫情有更多的了解。

新闻对疫情相关主题的情感倾向

通过对疫情相关的新闻进行主题分析和情感分析,我们可以得到每个主题的关键词以及情感分布。

图表1

症状检测主题的新闻内容表达出最多积极情感,该话题下讨论的是医院中检测患者的症状,其次是城市服务以及学校相关的新闻内容,讨论了商店关闭,社区隔离和学校延迟开学等话题,生活主题也表达出较多的积极情感(关键词:时间、家庭),疫情增加了家人相处的时间(图1)。

新闻表达的情感倾向随时间变化

考虑到新闻发布的时间、新闻相关的话题因素,图2显示了通过情感交叉分析得到的结果。

图表2

从话题排名来看,不同时间段的新闻中最热门的话题都有经济、出行和政治。从情感分布来看,1月份的经济主题新闻表达出较多的负面情绪(如股市因对冠状病毒的日益关注而下跌)。3月份随着疫情逐渐好转,城市主题新闻(如疫情期间保证商店服务和生产经营)的热度排名超过防护主题(关键词:口罩,洗手,健康等)。从1月到3月,各个主题下的积极情感比例都在不断增加。


点击标题查阅往期内容

【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据

左右滑动查看更多

01

02

03

04

新闻对不同主题关键词的关注度

考虑到不同话题的关注度,图3显示了高频关键词的分布。

图表3


从中我们可以看到疫情相关的新闻中最关注的方面,首先是健康,家庭和隔离和出行,其中健康出现的频率最高。然后关注的话题,包含冠状病毒、疫情期间的工作和病毒检测。其次关注的话题包含区分健康和感染的症状。其他关注的热门关键词包含学校、商业、旅行和经济等。

本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,拓端数据(tecdat)不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。


点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《自然语言处理NLP:情感分析疫情下的新闻数据》。

点击标题查阅往期内容

【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集

自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据

R语言对NASA元数据进行文本挖掘的主题建模分析

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

用于NLP的Python:使用Keras进行深度学习文本生成

长短期记忆网络LSTM在时间序列预测和文本分类中的应用

用Rapidminer做文本挖掘的应用:情感分析

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

R语言对推特twitter数据进行文本情感分析

Python使用神经网络进行简单文本分类

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

R语言文本挖掘使用tf-idf分析NASA元数据的关键字

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

Python使用神经网络进行简单文本分类

R语言自然语言处理(NLP):情感分析新闻文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言对推特twitter数据进行文本情感分析

R语言中的LDA模型:对文本数据进行主题模型topic modeling分析

R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

标签:分析,NLP,文本,疫情,新闻,主题,情感,自然语言,数据
From: https://www.cnblogs.com/tecdat/p/18095651

相关文章

  • 大数据——重复清洗
    importpandasaspdfromsqlalchemyimportcreate_engine#从数据库中读取结果表数据到DataFrame中engine=create_engine('mysql+pymysql://root:wwsa20030207@localhost/python_bigdata')result_df=pd.read_sql('SELECT*FROMresult_with_dimension',c......
  • 大数据——合并表
    importpandasaspdfromsqlalchemyimportcreate_engine#从数据库中读取已经合并的数据到DataFrame中,假设这里的数据已经合并并写入到了名为resulttable的表中engine=create_engine('mysql+pymysql://root:wwsa20030207@localhost/python_bigdata')result_df=pd.......
  • 大数据——调用百度地图接口进行规范
    importurllib.request,urllib.parse,urllib.errorimportjsonimporthashlibimportnumpyasnpimportpandasaspdMyAK=''MySK=''lat=0.0lng=0.0#处理得到urldefget_url(name):#GET请求http://api.map.baidu.com/geocoding/v3/?add......
  • 大数据——增加行政区编码列
    importpandasaspdfromsqlalchemyimportcreate_engine#从数据库中读取结果表数据到DataFrame中engine=create_engine('mysql+pymysql://root:wwsa20030207@localhost/python_bigdata')result_df=pd.read_sql('SELECT*FROMresult_with_dimension',c......
  • 大数据——数据下钻到省市县
    importurllib.request,urllib.parse,urllib.errorimportjsonimporthashlibimportnumpyasnpimportpandasaspdMyAK=''MySK=''lat=0.0lng=0.0#处理得到urldefget_url(name):#GET请求http://api.map.baidu.com/geocoding/v3/?add......
  • 大数据——补充关键词
    importpandasaspdimportnltkfromnltk.tokenizeimportword_tokenizefromnltk.corpusimportstopwordsfromnltk.stemimportPorterStemmerfromnltk.probabilityimportFreqDist#下载停用词列表(如果未下载的话)nltk.download('stopwords')df=pd.read_csv(&......
  • 数据库 char 与 varchar 的区别
     数据库内的char和varchar都是用于存储字符串数据类型的。两者主要区别是存储方式和存储情况:1)固定长度和可变长度char是固定长度的数据字符串类型,需指存储的字符长度;不论存储的字符长度是否达到了这个长度,都会占据指定存储的字符空间;例:定义一个char为10,......
  • 生信小白菜之GEO芯片数据分析流程--附画图代码
    title:“GEOdataanalysis”author:“yuluyang”date:“2024-03-22”生信技能树数据挖掘课程笔记~小洁老师授课主要内容:数据分组的内容关键词的分组和多分组比较idmap报错的原因及解决方法基因组的注释流程数据的行列互换及方差数值画图示例代码示例数据libr......
  • HashMap---数据结构
    目录一、基本数据结构二、树化与退化三、索引计算四、put方法和扩容五、并发问题六、key的设计一、基本数据结构        在jdk1.7版本的时候,hashmap结构主要是使用数组+链表的格式,而在jdk1.8版本中,hashmap的数据结构增加了一种“红黑树”的结构,即数组+(......
  • 静态数据成员的应用
    classStudent{//1.数据成员privateStringname;privateStringsex;publicstaticStringschool="岳麓书院";//公布静态数据成员//2.省略构造方法;//3.省略setter和getter方法;//4.功能方法publicvoiddisplay(){......