首页 > 其他分享 >关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化

关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化

时间:2022-11-09 12:32:31浏览次数:40  
标签:评分 APRIORI 爬虫 数量 豆瓣 评论 可视化 关联 书籍

豆瓣读书是豆瓣网的一个子版块。 本文数据来源于豆瓣读书网站,分析内容将基于豆瓣读书的图书评分和评论信息。 主题将紧紧围绕以下几点:有哪些书籍值得推荐?一般书籍的价格是多少?一本书的评分和评论数量之间是否存在某种关系?

热门书籍分布

截至爬取之日,热门书评数量实时增长,分别是:

①:评分>=8.0且评论超过10w+的书籍; ②:只有评论超过10w+的书; ③:按书评数量排名TOP8;

关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化_数据

经过对比,我发现一些值得一读再读的名著总是在列表中,而且列表中的大部分书籍都是开卷即有益的好书。 降低标准后,也出现了一些有益的书籍(《平凡的世界》之类的)。

由此可以得出结论,数据分析算法应该是综合多种数据得到的权重模型,所以评论量大或者评分高的书不一定值得一读,综合考虑得到的结果可以 被认为是公平的。比如郭敬明的《梦里花落知多少》,路遥的《平凡的世界》。

书籍的价格一般都是在什么范围?

对于读书爱好者来说,这是一个比较关心的问题。

关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化_数据_02

从上图我们可以发现,大部分书籍的价格在20-40之间,其他价格区间的书籍相对较少。 计算机专业书籍的价格在60-90之间,低于10元价格范围的书籍部分是电子书。 我们惊讶地发现有很多书的价格超过100元!

可以发现,这些百元以上的书籍,大部分都是史料书籍。 价格高的原因之一是这些书一般分为很多卷,研究意义重大,耗费大量人力。

热门书籍评价指标Apriori关联规则分析

接下来,我们研究3个关键评价指标:评分、评分数量和评论数量之间的关系。Apriori是常用的关联规则挖掘方法之一,可以找出3个评价指标之间的隐藏关联。

关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化_数据_03

使用平行多维图来观察流行书籍评分、评分数量和评论数量的流行关联规则。 我们发现大部分书籍的评分在8.0-8.9之间,评分数量在20万-70万之间。

评论最多的书有追风筝人、解忧的杂货店、白夜行等,评分在8.1以上。 基本上,具有更多评论的作品具有更高的评分。 但是,有些超高分(9分以上)的作品,评论数量却没有想象中的多!

本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,拓端数据(tecdat不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。


关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化_关联规则_04

 

标签:评分,APRIORI,爬虫,数量,豆瓣,评论,可视化,关联,书籍
From: https://blog.51cto.com/u_14293657/5835850

相关文章

  • 工业组态 | 2D组态软件Sovit2D组态可视化编辑器
    ​​随着工业智能制造的发展,工业企业对设备可视化、远程运维的需求日趋强烈,传统的单机版组态软件已经不能满足越来越复杂的控制需求,那么实现Web组态可视化界面成为了主要的......
  • 5个可视化 CSS 网格布局生成器
    英文|https://blog.bitsrc.io/top-5-css-grid-layout-generators-f7743f0dfad2翻译|杨小二现代Web应用程序是响应式的。尽管很多CSS库和框架都支持Grid系统,但使用......
  • Python 爬虫之lxml
    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、......
  • 爬虫的基本框架
    """-*-coding:utf-8-*-@Author:XiongShuai@Time:2022/11/123:53@File:.py"""importrequestsasrqimporttimestr_url="http://www.baidu.com"#http协议的解......
  • 可视化图形工具Portainer
    Portainer介绍Portainer是一个可视化的容器镜像的图形管理工具,利用Portainer可以轻松构建,管理和维护Docker环境。而且完全免费,基于容器化的安装方式,方便高效部署。官方站点:h......
  • 物联网网关助力生产数据可视化,提升智能管理水平
    数据可视化,就是将数据提取出来并形成动态图表等形式展示出来,使得海量数据可以分门别类,更有条理,方便人们了解并进行分析。生产数据可视化是物联网技术和生产管理技术的的结合......
  • 利用豆瓣爬虫构建推理小说关键字推荐器
    推理小说推荐器原理图书条目利用爬虫爬取豆瓣图书信息,书名、作者、出版社、评分等区分推理小说利用相关推荐的栏目来爬取,大概率都是推理小说要是爬出范围就手动调节......
  • 爬虫-破译百度翻译
    爬取一整张页面的局部数据抓取ajkx包这一步出现了一些问题,和老师的不一样,直接输入没有sug包,但是一个一个字母输入可以得到sug包 代码如下:importrequestsimportjs......
  • Python 爬虫之Beautiful Soup
    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、......
  • 最新抖音数据分析app爬虫
    我们提供封装好的抖音数据采集接口,实时采集,接口稳定。长期维护使用便宜接口使用详情请参考接口地址:github访问地址:github.com/ping0206guo…全部支持的接口如下,并且......