首页 > 其他分享 >京东商品评论情感分析|LDA主题模型

京东商品评论情感分析|LDA主题模型

时间:2022-11-10 10:11:43浏览次数:39  
标签:10 LDA 模型 主题 特征词 情感 京东 文本


京东商品评论情感分析|LDA主题模型_python

LDA模型是一种表示文档层与主题层,主题层与词汇层之间的联系的三层贝叶斯模型。LDA模型通常将每一篇文档以一种概率分布来确定主题,以概率分布的形式表示每个主题。其拓扑结构如下图所示:

京东商品评论情感分析|LDA主题模型_python_02

图1 LDA主题模型拓扑结构图

本文基于语义网络分析的方法对于商品评论做初步分析,从统计学习的角度来看,使用机器学习方法可以量化主题特征词的出现频率。通过量化主题特征词之间的出现频率,建立LDA主题模型,在小米10手机的文本评论中挖掘更多隐藏的和潜在的信息,挖掘小米10手机所具有的特殊属性。

1.1 LDA主题模型介绍

Blei等学者通过大量的研究,在2003年提出了一个生成主题模型,并将该模型命名为潜在Dirichlet分配(LDA)模型,简称主题模型。它可以有效地提取文本主题,并对文本评论数据进行文本挖掘建模分析。LDA主题模型添加了概率信息并优化了传统空间矢量模型。通过LDA主题建模分析,可以挖掘文本信息背后的潜在主题,然后分析文本特征词。

LDA模型将每个文档视为单词频率向量,然后在数学上将文本注释数据信息矢量化为易于建模的数字信息,然后建立一个单词袋模型,LDA模型图如下所示。

京东商品评论情感分析|LDA主题模型_数据_03

图2 LDA模型图

 1.2 LDA主题模型实现

本文建立LDA主题模型,采用Gibbs抽样估计LDA主题模型的参数。在LDA主题模型中,必须确定Dirichlet函数的先验参数和的两个变量的最佳参数,以及确定主题数的值,通过实证分析,将Dirichlet函数的先验参数的经验值设置为,β的经验值设置为0.1,值设置为50。

本文将手机评论数据文本分为正面和负面评价两个文本,综合考虑分词粒度对于文本主题抽取的影响。基于情感字典的方法,导入情感词典对于评论语句进行打分,将文本评论数据分成三种不同的情感结果,生成积极、消极和中性情感三种情感结果,并删除中性的情感结果。

本文仅对正面情感结果和负面情感结果建立LDA主题模型,挖掘产品评论背后的隐藏的、潜在的信息。对正面和负面情感结果两文本分词处理后,保存成积极情绪和消极情绪两个文本,编写LDA主题模型程序,并且导入停用词文档,使用Python的Gensim库生成LDA主题模型的主题抽取结果。

使用Python中的Gensim库将如上的评论文本聚为三个主题,且每个主题下生成十个词语,以及该词语在该主题下所对应的概率,如下表挖掘出小米10手机正面和负面评价文本中的潜在主题。

京东商品评论情感分析|LDA主题模型_数据_04

抽取小米10手机正面评价的三个潜在主题,我们可以得出:

主题一中包含屏幕、速度、外观、运行等高频特征词,主要反映小米10手机屏幕大、外观漂亮、运行速度快的特点;

主题二中包含屏幕、效果、音效等高频特征词,主要反映小米10手机屏幕大、使用效果不错、音效很好;

主题三中包含拍照、外观、屏幕等高频特征词,主要反映小米10手机的拍照功能好、外观漂亮、屏幕大。

抽取小米10手机负面评价的三个潜在主题,我们可以得出:

主题一中包含摄像头、重启等高频特征词,主要反映的是小米10手机摄像头存在缺陷、屏幕不太好、手机经常重启等;

主题二中包含信号、发热、网络等高频特征词,主要反映的是小米10手机信号太差、手机经常发热、网络差;

主题三中包含待机时间、耳机、时不时等高频特征词,主要反映的是小米10手机待机时间短、耳机时不时会出现故障。

综上所述,对于正面和负面手机评论文本的主题抽取,以及依据高频特征词出现的概率,得出,小米10手机具有手机屏幕大、运行速度快、外观漂亮、拍照功能好的性能优势,同时,小米10手机手机也反映出信号差、发热、网络差、待机时间短的不足。

京东商品评论情感分析|LDA主题模型_主题模型_05

PS:由于本例编写的python代码过长,将本专辑所有的代码封装在后台保存,附加爬取的京东商品评论数据。

公众号后台回复

京东商品评论

获取封装代码和文本数据

京东商品评论情感分析|LDA主题模型_数据_06

标签:10,LDA,模型,主题,特征词,情感,京东,文本
From: https://blog.51cto.com/u_15828536/5839632

相关文章

  • 京东商品评论情感分析|TF-IDF模型属性提取
    1.TF-IDF的概念与算法为研究小米10手机所具有的特殊商品属性,发掘该款手机的优缺点,继续保持该款手机的优势,弥补商品的弱势,为店铺运营提供策略,本文采用TF-IDF的方法来提取商......
  • 京东商品评论情感分析|文本数据预处理
    本文爬取了十款热销手机的文本评论数据后,首先对文本评论数据做文本预处理,文本评论数据中存在大量的无价值信息,引入无用的文本数据,对其作情感分析,显然没有价值,得出的文本挖掘......
  • 京东商品评论情感分析|研究综述
    目前,我国电子商务行业发展迅速,规模不断扩大,促使日常生活中网购盛行,各个电商平台竞争激烈,通过构造消费者反馈机制,使得消费者反馈通畅,消费者评论蕴含丰富信息,充分挖掘这类信息......
  • 京东商品评论情感分析|文本数据获取
    本文以小米京东旗舰店平台作为数据来源,爬取小米京东旗舰店十款热门手机的当前在线评论文本数据5110条数据,抽取小米10的手机评论数据做情感分析,对评论数据进行文本去重、机械......
  • R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS
    介绍数据包含有关葡萄牙“VinhoVerde”葡萄酒的信息。该​​数据集​​有1599个观测值和12个变量,分别是固定酸度、挥发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二......
  • 京东前端经典react面试题合集
    为什么调用setState而不是直接改变state?解答如果您尝试直接改变组件的状态,React将无法得知它需要重新渲染组件。通过使用setState()方法,React可以更新组件的UI。另......
  • 京东云开发者|代码评审的价值和规范
    评审目的代码评审的目的就是为了保证公司整体代码的健康状况随着不断迭代,始终保持一个较高的水平,所有在评审中使用的工具和流程都应是为此目的而设计的。评审原则鼓励......
  • 京东云开发者|mysql基于binlake同步ES积压解决方案
    1背景与目标1.1背景国际财务泰国每月月初账单任务生成,或者重算账单数据,数据同步方案为mysql通过binlake同步ES数据,在同步过程中发现计费事件表,计费结果表均有延迟,ES数......
  • 京东云开发者|深入JDK中的Optional
    概述:Optional最早是Google公司Guava中的概念,代表的是可选值。Optional类从Java8版本开始加入豪华套餐,主要为了解决程序中的NPE问题,从而使得更少的显式判空,防止代码污染,另一......
  • 情感小记
    情感小记因为一些事突发感想,就想记录在我的第一篇博客了吧。那是关于我大学最初几个月对一位女生的感觉,在现在这个时刻不想过多地回忆(可能回忆的太多次了吧)。记......