首页 > 其他分享 >京东商品评论情感分析|文本数据获取

京东商品评论情感分析|文本数据获取

时间:2022-11-10 10:08:09浏览次数:68  
标签:网页 爬虫 爬取 情感 评论 手机 京东 文本 数据


京东商品评论情感分析|文本数据获取_网页解析

本文以小米京东旗舰店平台作为数据来源,爬取小米京东旗舰店十款热门手机的当前在线评论文本数据5110条数据,抽取小米10的手机评论数据做情感分析,对评论数据进行文本去重、机械压缩去词等文本预处理后,建立多种文本挖掘模型。

1.评论数据采集

本文分别爬取小米京东自营旗舰店内的十款热门手机产品,不同的手机产品有不同的URL,不同的手机产品对应的URL如下所示。

京东商品评论情感分析|文本数据获取_网页解析_02

1.1爬虫基本概念

网络爬虫也称之为网络蜘蛛,是一个程序化脚本,在下载网页信息时,可以实现循环自主化。网络爬虫通过网页请求,循环自主的下载每一个网页信息,并解析其页面内容。首先了解浏览网页的基本流程,分为浏览器向服务器发送请求,接着网页服务器向浏览器返回响应内容,浏览网页的基本流程如下所示。

京东商品评论情感分析|文本数据获取_网页解析_03

图1 浏览网页基本流程图

接着进行网页解析,HTML用于展示网页的构成信息,XML用于保存数据,Xpath可用于在HTML/XML文档中定位并且提取片段,是一种常用的查询语言,网页解析的拓扑结构如下所示。

京东商品评论情感分析|文本数据获取_数据_04

图2 网页解析拓扑结构图

1.2 爬虫基本流程

爬取商品的评论数据分为请求URL、获取商品评论页、解析商品评论页以及设置循环翻页等步骤,爬取商品评论的一般流程如下所示。

京东商品评论情感分析|文本数据获取_网页解析_05

图3 商品爬取评论流程图

了解爬虫的基本流程后,本文选取八爪鱼数据采集器,设计爬取流程,需要爬取手机产品的品牌信息和评论信息等,并设置循环翻页,循环爬取该款商品每一页的评论信息数据,八爪鱼流程设计如下图所示。

京东商品评论情感分析|文本数据获取_网页解析_06

图4 爬虫流程设计图

共爬取小米京东自营旗舰店热销手机产品5110条数据,其中以小米10的手机评论数据最多,为510条,本文抽取小米10的手机评论数据做情感分析,各种型号的手机评论数据如下图所示。

京东商品评论情感分析|文本数据获取_网页解析_07

图5 各型号手机评论数据柱形图



京东商品评论情感分析|文本数据获取_网页解析_08

标签:网页,爬虫,爬取,情感,评论,手机,京东,文本,数据
From: https://blog.51cto.com/u_15828536/5839644

相关文章

  • HTML----常用标记(文本、文字、超链接与锚点连接)
    1.标记的分类单标记:只有一个标记既是开始,也是结束,如:图片、视频双标记:又开始有结束,成对出现的,主要作用就是描述标记的内容,如:div2.文本、文字<font></font......
  • ckeditor富文本实现导入word功能
    ​ 1.编辑器修改(可选)1.1在 ueditor/config.json 中添加代码块    /* 上传word配置 */    "wordActionName":"wordupload",/* 执行上传视频的action......
  • SwiftUI Text富文本
    富文本解决方案大致有下面几种1、Text的超链接:2、如果是单行文字使用HStack把多个Text拼接起来,这种方式比较简单也用的比较多3、Text+Text的拼接,处理onTapGesture事件......
  • 京东前端经典react面试题合集
    为什么调用setState而不是直接改变state?解答如果您尝试直接改变组件的状态,React将无法得知它需要重新渲染组件。通过使用setState()方法,React可以更新组件的UI。另......
  • shell-文本处理学习笔记
    grep和egrep第一种形式:grep[option][pattern][file1file2...]第二种形式:command|grep[option][patern]选项:option-v不显示匹配行grep-vpythonfile......
  • css 文本属性
            ......
  • 京东云开发者|代码评审的价值和规范
    评审目的代码评审的目的就是为了保证公司整体代码的健康状况随着不断迭代,始终保持一个较高的水平,所有在评审中使用的工具和流程都应是为此目的而设计的。评审原则鼓励......
  • OpenCV_contrib里的Text(自然场景图像中的文本检测与识别)
    平台:win10x64+VS2015专业版+opencv-3.x.+CMake待解决!!!Issue说明:最近做一些字符识别的事情,想试一下opencv_contrib里的Text(自然场景图像中的文本检测与识别)模块。原因:解......
  • jquery实现简单富文本编辑
      <script>$("#under").click(function(){varsec=getSelection()if(sec==undefined){return;......
  • 定制富文本编辑器
    定制富文本编辑器很多时候<textarea>并不能满足我们对文本输入的需求,当我们需要为输入的文本添加格式时,我们需要使用像quill这样的富文本编辑器来完成富文本的输入。本文将......