本文以小米京东旗舰店平台作为数据来源,爬取小米京东旗舰店十款热门手机的当前在线评论文本数据5110条数据,抽取小米10的手机评论数据做情感分析,对评论数据进行文本去重、机械压缩去词等文本预处理后,建立多种文本挖掘模型。
1.评论数据采集
本文分别爬取小米京东自营旗舰店内的十款热门手机产品,不同的手机产品有不同的URL,不同的手机产品对应的URL如下所示。
1.1爬虫基本概念
网络爬虫也称之为网络蜘蛛,是一个程序化脚本,在下载网页信息时,可以实现循环自主化。网络爬虫通过网页请求,循环自主的下载每一个网页信息,并解析其页面内容。首先了解浏览网页的基本流程,分为浏览器向服务器发送请求,接着网页服务器向浏览器返回响应内容,浏览网页的基本流程如下所示。
图1 浏览网页基本流程图
接着进行网页解析,HTML用于展示网页的构成信息,XML用于保存数据,Xpath可用于在HTML/XML文档中定位并且提取片段,是一种常用的查询语言,网页解析的拓扑结构如下所示。
图2 网页解析拓扑结构图
1.2 爬虫基本流程
爬取商品的评论数据分为请求URL、获取商品评论页、解析商品评论页以及设置循环翻页等步骤,爬取商品评论的一般流程如下所示。
图3 商品爬取评论流程图
了解爬虫的基本流程后,本文选取八爪鱼数据采集器,设计爬取流程,需要爬取手机产品的品牌信息和评论信息等,并设置循环翻页,循环爬取该款商品每一页的评论信息数据,八爪鱼流程设计如下图所示。
图4 爬虫流程设计图
共爬取小米京东自营旗舰店热销手机产品5110条数据,其中以小米10的手机评论数据最多,为510条,本文抽取小米10的手机评论数据做情感分析,各种型号的手机评论数据如下图所示。
图5 各型号手机评论数据柱形图