本文阐述多种文本挖掘分析的方法,借助不同的文本挖掘算法,挖掘京东商品评论背后潜在的、隐藏的信息。
1.1 研究内容
本文针对小米京东自营旗舰店内的十款热销手机,运用多种文本挖掘的方法,做商品评论情感分析,文本挖掘是一种数据挖掘中常用的算法,该文本挖掘算法以文本数据为处理对象,从海量的文本数据中发现潜在的、隐藏的价值信息。文本挖掘的常应用于舆情监控、垃圾邮件过滤、搜索引擎、客户自动问答、文本相似性检索等应用中。文本挖掘的流程图如下所示。
图1.1 文本挖掘模型结构流程图
首先借助爬虫工具爬取小米京东自营旗舰店内的十款热销手机的手机评论数据,然后文本数据预处理后,建立情感倾向性、语义网络分析、LDA主题模型、TF-IDF属性提取多种文本挖掘的方法,最后为小米京东自营旗舰店提供营销建议。
本文的研究内容可以分为如下七章:
第一章:绪论。首先,对于自然语言处理以及电商评论的研究意义和背景做综述,概述国内外学者对于电商评论数据挖掘的研究动态,然后,描述本文的研究内容、研究方法以及论文结构。
第二章:数据准备。首先,爬取小米京东旗舰店十款热销手机的评论数据,然后,用多种文本预处理的方法对文本评论数据做预处理。
第三章:商品评论情感分析。首先,构建情感词典,抽取一款热销手机的评论数据做情感分析,然后,建立语义网络模型,在熟悉语义网络的概念,了解语义网络结构的基础上,基于语义网络对该产品评论数据做评价分析。
第四章:商品评论主题分析。首先,建立LDA主题模型,了解模型的相关概念及研究背景,并运用LDA主题模型进行主题分析,然后,基于TF-IDF属性提取模型,提取该款商品的最优属性,总结最优属性的特点。
第五章:总结与展望。总结并归纳本次论文的所有内容,针对模型的不足之处,提出模型的优化方法,对于电商平台运营提出改善建议。
1.2 技术路线
本文以小米京东自营旗舰店的手机评论数据作为分析数据,使用文本去重等文本数据预处理的方法,建立情感倾向性分析、语义网络分析、LDA主题模型、商品属性提取文本挖掘模型,挖掘商品评论数据背后潜在的、隐藏的价值信息,并对这些信息进行分析,对于电商平台提出一种营销建议。
本文所使用的技术路线如下所示:
图1.2 技术路线图