全文链接:http://tecdat.cn/?p=30680
原文出处:拓端数据部落公众号
这是一份有关消费者对电影市场看法及建议的调查报告,我们采取了问卷调查法,其中发放问卷256份,回收有效问卷200份。
我们对数据进行了基本分析,比如:相关性。还有基本图形、回归方差分析。最后模型比较。
读入数据
head(data)
数据的描述
str(data)
数据一共有200个样本,25个属性。具体属性和取值及其含义如下:
数据展示
绘制各个变量的饼图可以看到基本人口信息的各个取值的所占的百分比。
数据特性总结
基本统计量
数据准备
数据的清理
#数据清理
对缺失值(NA)的处理
data=na.omit(data)
#变量筛选
colnames(data)
data=data[, -which(colnames(data) %in% c("填写时间","是否星标","提交后随机码" , "是否已
数据分析
基本数据分析,比如:相关性。还有基本图形、回归方差分析。 最后模型比较。
数据检验
相关性
查看您对中国电影产业的发展建议和请问您看电影的主要目的是什么变量之间是否具有相关关系
检验的结果是,由于P =0.016<0.05,因此在0.05的显署性水平下,拒绝原假设,认为两者之间具有相关关系。
下面进行方差分析
m1<-aov(Q12.您一般通过什么途径购买电影票~Q9.请问您看电影的主要目的是什么,data=datacor)
由于p值大于0.05,从这个结果可以看出看电影的不同目下购买电影股票的差别不显著。
由于p值小于0.05,从这个结果可以看出看电影的不同目下购买电影股票的差别不显著。
回归分析
从回归模型的结果来看,可以看到接受电影票价格区间对被调查对象考虑的电影外在因素有比较大的影响,p值小于0.05,因此该变量对被调查者选择去看电影有显著的影响 。其次被调查者的年龄也有较明显的影响,可以年龄和被调查者去看电影有较大的负相关关系,因此可以认为年龄大的人会倾向于考虑的看电影各种外在因素。
plot(model)
从回归模型的残差结果图来看,残差比较均匀地分布在0线周围,和qq图周围,说明残差随机服从正态分布,因此,回归模型具有较好的效果。
模型的比较和讨论
模型筛选与比较,使用逐步回归进行模型筛选最优模型,然后和传统的回归模型进行比较。 删去不显著的变量.
进行变量删减后的回归模型,我们得到最优变量是被调查者接受的电影票价格区间,p值小于0.05,说明该变量对被调查者考虑的外在因素有显著的影响。
最受欢迎的见解
3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)
6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现
7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
标签:变量,数据,回归,电影,anova,可视化,逐步回归,data,模型 From: https://www.cnblogs.com/tecdat/p/16945289.html