首页 > 其他分享 >R语言贝叶斯模型预测电影评分数据可视化分析

R语言贝叶斯模型预测电影评分数据可视化分析

时间:2023-12-04 11:32:26浏览次数:42  
标签:rating 评分 模型 电影 贝叶斯 audience score 可视化 imdb

本文使用R语言帮助客户进行了贝叶斯模型预测电影评分,并对数据进行了可视化和分析。文章创建了五个新的特征变量,包括电影类型、导演获奖情况、电影票房、评论数量和影评人数量等,并分析了这些变量对电影评分的影响。通过模型预测和系数解释,发现imdb_rating具有最高的后验概率,且截距和运行时对观众评分有积极影响,而评论数量和影评人数量对观众评分的影响较小。文章还提供了对数据的探索性分析,并得出了某些见解,如舞蹈电影更受欢迎,较长的电影通常会让观众感到无聊等。

读取数据

 

 

load("e1fevies.Rdata")

数据

数据概述

数据集电影包括2016年之前发布的651个随机取样的电影,包括蕃茄和IMDb的信息。

范围

数据集为回顾性观察性研究的结果,该研究使用随机抽样方法从电影获得代表性样本。 由于随机抽样方法被应用于数据收集,结果应该可以推广到目标人群。

数据预处理

创建五个新的特征变量。

 

 

mr(ifelse(title_type=='Feature Film', 'yes', 'no')))  
mor(ifelse(genre=='Drama', 'yes', 'no')))  
movies <- mutate(movies,ating=='R

数据探索分析

因为响应变总是audience_score,所以我们希望y轴看到所有变量的比较。 因此,我们可以使用tidyr包的collect函数将所有5个新创建的变量放到单个列中。

 

 

movies_ed <- gath7)

然后我们创建一个箱线图。

 

 

ggplot(moviegag)) + geom_bxplot()

R语言贝叶斯模型预测电影评分数据可视化分析_后验概率

进行数据摘要统计。

 

 

summarise(mean=mean(audience_scoence_score))

R语言贝叶斯模型预测电影评分数据可视化分析_后验概率_02

很明显,从剧情和摘要来看,戏剧电影往往具有比其他类型更高的分数。 feature films 电影比 non-feature电影电影的得分低得多。 然而,其他变量似乎对分数没有任何显著影响。

贝叶斯模型

现在进行贝叶斯模型的建立。

 

 

model <- bam(datdienc_score ~ feature_film + drama + runtime +
......
               + best_dir_win + top200_box, prior = 'BIC', mo

让我们为每个变量输出边际后验概率。

R语言贝叶斯模型预测电影评分数据可视化分析_数据_03

我们可以看到imdb_rating具有1.00的后验概率,这在电影工业的背景下听起来很合理。 同时critics_score和runtime也有很高的概率。

然后让我们看看模型的总结。

R语言贝叶斯模型预测电影评分数据可视化分析_数据_04

我们看到,最好的模型包括截距,运行时的imdb_rating和critics_score是与上述发现一致。

我们拟合最好的模型并解释它的系数。

R语言贝叶斯模型预测电影评分数据可视化分析_后验概率_05

我们看到imdb_rating具有14.95的系数,意味着对于imdb_rating的每增加1个额外的分数,我们期望audience_score会增加14.95。 由于IMDB得分以0到10的衡量量表给出,并且audience_score以0到100的衡量量表给出,并且考虑截距= -32.90,这个结论是有道理的。

类似地,对于critics_score上的每增加1个额外得分,我们期望audience_score会增加0.075。 显然,这不像imdb_rating那样有影响力。

最后,对于电影运行时间每增加一分钟,我们预计在audience_score中将减少0.058。 这意味着一般来说,人们不喜欢冗长的电影。

预测

现在使用我们的最终模型来预测X-MEN的观众分数 。

 

 

predict(finew_movie)

R语言贝叶斯模型预测电影评分数据可视化分析_后验概率_06

该模型预测观众分数为71.5,接近真实值71。


结论

事实上,imdb_rating具有最高的后验概率,并且我们五个新创建的变量中有两个不包括在最佳模型中,这是需要改进的。 因为IMDB评级与观众分数有些同步,因此事先来预测变量是欠妥的,critics_score也是同样道理。

然而,我们确实有一些见解可能是有用的。 舞蹈电影更受欢迎; 特征/非特征电影在观众分数方面具有突出的优势; 较长的电影通常会让观众感到无聊等。


R语言贝叶斯模型预测电影评分数据可视化分析_模型预测_07


标签:rating,评分,模型,电影,贝叶斯,audience,score,可视化,imdb
From: https://blog.51cto.com/u_14293657/8675254

相关文章

  • 数据分享|python分类预测职员离职:逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGB
    全文链接:https://tecdat.cn/?p=34434原文出处:拓端数据部落公众号分析师:ShilinChen离职率是企业保留人才能力的体现。分析预测职员是否有离职趋向有利于企业的人才管理,提升组织职员的心理健康,从而更有利于企业未来的发展。解决方案任务/目标采用分类这一方法构建6种模型对职......
  • MAUI中使用ECharts数据可视化显示
    一、ECharts简介ECharts是一款基于JavaScript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。ECharts最初由百度团队开源,ECharts遵循Apache-2.0开源协议,免费商用。官网:https://echarts.apache.org/zh/index.html示例论坛:https://www.makeapie.cn/echar......
  • R语言贝叶斯模型预测电影评分数据可视化分析
    全文链接:https://tecdat.cn/?p=34421原文出处:拓端数据部落公众号本文使用R语言帮助客户进行了贝叶斯模型预测电影评分,并对数据进行了可视化和分析。文章创建了五个新的特征变量,包括电影类型、导演获奖情况、电影票房、评论数量和影评人数量等,并分析了这些变量对电影评分的影响。......
  • 可视化学习:利用向量判断多边形边界
    引言继续巩固我的可视化学习,向量运算是计算机图形学的基础,本例依旧是向量的一种应用,利用向量判断多边形边界,但是多边形的边界判断稍微有点复杂,所以除了应用向量之外,还需要借助三角剖分的相关工具。这个例子中可视化的展示采用Canvas2D来实现。问题假设Canvas画布上存在一个如下......
  • 数据之美:数据可视化引领信息时代
    数据可视化,作为当今信息时代的重要工具,正逐渐受到更多人的关注和重视。它的重要性不仅在于帮助人们更直观地理解数据,更在于为我们揭示数据背后的故事,以及对决策和发现见解的巨大价值。那么,为何数据可视化越来越被人们所重视呢?接下来,让我们一同深入探讨。视觉化理解:人类是视觉动......
  • 数据可视化软件之变:免费化趋势解析
    近年来,我们见证了数据可视化软件呈现出明显的免费化趋势。这个趋势的背后隐藏着许多关键原因,影响着整个数据行业的发展和走向。为何数据可视化软件开始朝着免费方向发展?让我们一同深入探讨。普及数字化需求:数字化已经深入到我们日常生活和工作的方方面面。随着大数据和信息化的......
  • 数据可视化:数据洪流中的引领者
    在当今信息爆炸的时代,数据量呈指数级增长,它们是我们日常生活和工作中的重要组成部分。然而,数据本身是无生命的数字和统计,若不能有效地被理解、传达和利用,其潜力就难以实现。这正是数据可视化变得越来越重要的原因所在。首先,数据可视化帮助我们更直观地理解信息。人类是视觉动物,......
  • R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化
    全文链接:https://tecdat.cn/?p=34409原文出处:拓端数据部落公众号简介这是一种拟合稀疏广义加性模型(GAM)的新方法。RGAM具有计算可扩展性,并且适用于连续、二进制、计数和生存数据。让我们生成一些数据: Rset.seed(1)n<-100;p<-12mu=rowSums(x[,1:3])+f4+f......
  • 十、Docker 可视化与监控
    6.1常用工具介绍当Docker部署规模逐步变大后,可视化监控容器环境的性能和健康状态将会变得越来越重要。Docker的图形化管理工具,提供状态显示面板、应用模板快速部署、容器镜像网络数据卷的基本操作(包括上传下载镜像,创建容器等操作)、事件日志显示、容器控制台操作、Swarm集......
  • Jmeter压测可视化监控平台
    许多小伙伴在使用Jmeter原生测试报告时,有以下四点困扰: 报告不具备实时性。报告文件的大小随着测试时间的增长而增长,而磁盘存在读写瓶颈,随时都可能崩溃。报告中的数据是测试时间段内的平均值。报告较为冗余,可读性较差。在实际测试过程中,我们一般只关心三条曲线的数据......