首页 > 其他分享 >数据报告分享|SPSS基于多元回归模型的电影票房预测

数据报告分享|SPSS基于多元回归模型的电影票房预测

时间:2024-03-19 16:35:00浏览次数:33  
标签:导演 票房 模型 回归 电影 多元回归 SPSS 电影票房

全文链接:https://tecdat.cn/?p=33190

原文出处:拓端数据部落公众号

本文通过利用回归模型对电影的票房(以及放映场数,观影人数)进行了研究,确定了决定电影的票房的重要因素。并讲述、论证了预测电影的票房是电影投资的至关重要的环节。通过对电影票房预测技术的发展和探讨,深度剖析了电影票房预测这个研究课题。

一、 电影票房预测发展简介

(一) 西方电影票房的研究

美国电影的票房研究起始于上个世纪80年代,由李特曼(B. R. Litman)在1989年以1981到1986年在美国播出的697部电影作为研究样本,通过多元回归分析,初步建立了电影票房的预测模型。

我们收集了中国电影发行放映协会统计的过千万票房的国产电影的相关统计指标,共涉及275部影片.

image.png

因变量为:

放映场数(千场):累积量。

观影人数(万人):累积量。

票房(万元):累积量。票房均值在一亿人民币左右,其中《人在囧途之泰囧》票房达到了12.7亿,位列第一。

自变量为:

•影片部分

genre  影片类别:分类变量,共有15个类型。为了获得大量的观众群体,大多数影片都兼具许多种影片类型,因此我们仅选取了该片最主要的类型。15个类型分别是:喜剧,魔幻,动作,爱情,灾难,历史剧情,励志,主旋律,警匪,悬疑,动画,儿童,惊悚,家庭伦理。

Year 上映年份:2010-2013四年

month 上映月份:1-12

week 上映周数:1-53,从当年1月1号起记为第一周

distribute 电影分级:C/G/L/S

runtime 时常:分钟。过长或过短的电影都会对票房产生影响,找到合理的时长,从而能够有效的控制电影的剪辑。

Story 作品是否改编 :该指标是电影产品的核心元素,在内容为王的当下,好的剧本往往能够吸引受众,对于国产影片,观众更看重的是好的故事,他们往往对国产影片的技术并不抱太大希望。因此,该指标主要包括两个水平,一是畅销小说改编成剧本1,另一个则是非改编剧本也就是原创剧本0。(N=改编,S=原创

reality 作品是否真人真事:1=真实,0=虚构

remake  作品是否翻拍:1=翻拍,0=非翻拍

sequel  作品是否续集:好莱坞的一大宗旨是誓将续集进行到底,真可谓天长地久有时尽,大片续集无绝期!因为第一,好拍;第二,票房好。那么,在中国市场,这招是否仍然管用?

•导演演员部分

导演姓名

导演年代

第几部作品:该片是该导演的第几部作品。冠军《人在囧途之泰囧》是导演徐峥的处女作,拿到了12亿的票房,而喜剧《财神客栈》已经是导演王晶的第110部影片。老导演or新导演,哪一种更吸引人?是久炼成钢,姜越老越辣?还是廉颇老矣,洗洗回家睡吧?

导演得奖情况:1=得奖,0=没得奖

导演是否转型:导演是一门确实能够自学成才的工种,就像久病成医,演的多了,拍的多了,自然也能成为优秀的导演。在中国电影市场中,演员转型当导演的赵薇、徐峥;作家转型的郭敬明、韩寒,我们希望看到已经在自己的领域取得成就的这些名人,随着工种的转变是否会对票房有影响。

Baidu index 主演的百度指数:影片的主演在分析中是一个字符变量,为了更好的使用这一指标,同时优化工作效率,我们决定在相同的时间段,选择所有演员百度指数的平均值作为衡量主演的标准。因为大多数电影不会仅有一个主演,所以我们选取了两个主演。百度指数越高,代表该演员知名度越高。

查看数据  该数据集有以下一些变量:

image.png

image.png

从上表可以看到不同变量的缺失数据均值中值最大最小值等情况和分布情况。

image.png

image.png

 模型建立

主要思路 为了准确的估计票房,了解电影票房的一般规律,更好为电影投资方提供参考意见,本文从电影票房和电影相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了电影票房变动的影响因素. 具体分析步骤

1.描述性统计,初步查看每个变量的均数中值等数据.

2.选择多项式回归模型

2.1变量选取 通过回归模型筛选出显著性较强的变量进行回归建模。

2.2显著性检验 根据F值和p值统计量来判断模型是否具有显著的统计意义。

2.3拟合预测 使用得到的模型对实际数据进行拟合和预测。

3.拟合不同的模型。查看模型效果。

4.分析得出结论 得出各个自变量之间的关系,以及它们对因变量的影响及其意义。   

转换数据,拟合多元线性模型

将所有数据转化成数值类型

image.png

 建立多元线性:票房

尝试通过最直观的解释建立模型

image.png

 进行多元线性模型并进行分析

从全变量模型可以看出大部分变量无法估计出其参数,说明部分变量不适合用来预测票房,因此对其中的部分变量进行删减后。得到筛选后的回归模型。

  •  筛选变量

  •  显示回归结果

image.png

image.png

回归结果分析

从输出结果的变量sig值可以看出,导演的情况和是否有续集以及电影的时长对电影的票房有巨大的影响。 从变量的coefficient回归系数来看,导演的情况和是否有续集有正向关关系。

回归结果

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。 显示结果如下:

image.png

image.png

左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。

  进行多元线性模型并进行分析——放映场数

image.png

image.png

回归结果分析

从输出结果的变量sig值可以看出,和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。

回归结果

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。 显示结果如下:

image.png

image.png

左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。

进行多元线性模型并进行分析——观影人数

image.png

image.png

回归结果分析

从输出结果的变量sig值可以看出,和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。

回归结果

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。 显示结果如下:

1111.png

image.png

左图是残差直方图,从图上可以发现, 所有点基本上是随机地分散在0周围,密度曲线近似为正态分布。

最后我们得到了文件结果:

image.png

image.png 代码:

   
GET DATA   /TYPE=TXT   /FILE='E:\电影票房数据.csv'   /DELCASE=LINE   /DELIMITERS=" ,"   /ARRANGEMENT=DELIMITED   /FIRSTCASE=2   /IMPORTCASE=ALL   /VARIABLES=   片名 A30   放映场数 A8   人数 A10   boxoffice F9.2   genre A8   year A7   month A4   week F4.0   distribute A2   runtime A3   story A3   reality A2   remake A1   sequel F1.0   导演 A22   导演年代 A6   第几部作品 A6   导演得奖情况

ai-storytelling_1536x1536_600.jpg

最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

标签:导演,票房,模型,回归,电影,多元回归,SPSS,电影票房
From: https://www.cnblogs.com/tecdat/p/18083291

相关文章

  • SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
    全文链接:https://tecdat.cn/?p=35377原文出处:拓端数据部落公众号随着互联网的普及和电子商务的快速发展,网络购物已成为大学生日常生活中不可或缺的一部分。大学生作为网络购物的主体力量,其消费观念、行为特征以及影响因素对于电子商务行业的发展具有重要的研究价值。因此,本文旨......
  • SPSS modeler关联规则、卡方模型探索北京平谷大桃产业发展与电商化研究
    原文链接:https://tecdat.cn/?p=35275原文出处:拓端数据部落公众号平谷区的大桃产业经历了30多年的发展历程,成为了中国著名的大桃之乡,世界最大的桃园。以大桃产业为主的果品产业已成为全国农业产业结构调整的特色代表,是名副其实的富民产业、生态产业,对农民就业、农村稳定和社会主......
  • 用SPSS估计HLM多层(层次)线性模型模型|附代码数据
    原文链接:http://tecdat.cn/?p=3230作为第一步,从一个不包含协变量的空模型开始 ( 点击文末“阅读原文”获取完整代码数据******** )。每所学校的截距,β0J,然后设置为平均,γ00,和随机误差ü0J。将(2)代入(1)产生要在SPSS中进行估算,请转至分析→混合模型→线性...相关视频**......
  • SPSS Modeler决策树分类模型分析商店顾客消费商品数据
    全文链接:https://tecdat.cn/?p=34926原文出处:拓端数据部落公众号随着大数据时代的来临,数据挖掘和分析在商业决策中扮演着越来越重要的角色。商店的顾客消费行为数据是商业决策的关键信息之一,通过对这些数据的深入分析,可以更好地理解顾客的消费习惯和偏好,从而优化商品销售策略,提......
  • SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据
    全文链接:http://tecdat.cn/?p=10809最近我们被客户要求撰写关于分层线性模型的研究报告,包括一些图形和统计输出。本文用于比较六个不同统计软件程序(SAS,Stata,HLM,R,SPSS和Mplus)的两级分层线性模型的过程和输出下面介绍的六个模型都是两级分层模型的变体,也称为多级模型,这是混合模型......
  • SPSS modeler用关联规则Apriori模型对笔记本电脑购买事务销量数据研究
    全文链接:https://tecdat.cn/?p=34709原文出处:拓端数据部落公众号自2011年全球PC出货量达到历史最高的3.64亿台后,全球PC市场出货量已经连续四年下滑。市场调研公司Gartner最新数据显示,2015年Q3全球PC销量同比降低7.7%,至7370万台。IDC数据更加不乐观,2015年Q3全球PC出货量共计7100......
  • IBM SPSS Statistics 27:洞悉数据,揭示趋势
    IBMSPSSStatistics27是一款功能强大的数据统计分析软件,它可以帮助用户快速、准确地分析和解读数据,并生成高质量的统计图表和报告。点击获取IBMSPSSStatistics27首先,IBMSPSSStatistics27具有广泛的数据分析工具和功能。它支持各种数据导入和预处理方式,可以快速清洗、整......
  • SPSS modeler利用类神经网络对茅台股价涨跌幅度进行预测
    全文链接:https://tecdat.cn/?p=34459原文出处:拓端数据部落公众号分析师:XuZhang数据变得越来越重要,其核心应用“预测”也成为各个行业以及产业变革的重要力量。对于股市来说,用人工智能来对股价进行预测成为量化投资的一个重要手段。本项目帮助客户运用powerBI获取网易财经上茅......
  • SPSS Modeler分析物流发货明细数据:K-MEANS(K均值)聚类和Apriori关联规则挖掘|附代码数据
    物流发货明细数据在现代物流业中扮演着至关重要的角色。通过对这些数据进行挖掘和分析,我们可以发现隐含在背后的供应链运营规律和商业模式,从而指导企业在物流策略、成本管理和客户服务等方面做出更加科学和有效的决策。SPSSModeler是一款功能强大、界面友好的数据挖掘和分析工具,......
  • 利用SPSS做多元线性回归
    这里做的是RH(土壤相对湿度)和PA、SPI、MI、MCI之间的关系:   结果: 看下R方,0.221,说明预测变量PA、SPI、MI、MCI能够解释因变量RH22.1%,证明RH的波动只有22.1%是由于PA、SPI、MI、MCI造成的,一般统计学要求30%以上是可以接受的。实际数据达到10%就算好的了,一般10%可以接受......