首页 > 其他分享 >R语言分类回归分析考研热现象分析与考研意愿价值变现

R语言分类回归分析考研热现象分析与考研意愿价值变现

时间:2024-04-07 17:55:54浏览次数:438  
标签:分析 因变量 模型 分类 建模 意愿 考研热 考研

全文链接:https://tecdat.cn/?p=35666

分析师:Xin Hu

首先,在考研中,受到新冠疫情影响,考研增长人数增长与大部分考研机构预测有一定差距(今年人数只有370多万,并没有突破400万大关),本次研究帮助客户需要通过问卷调查进行内部影响机制探究。

其次,因为考研意愿程度会受到各种因素影响,因此本次研究通过机器学习的方法,搭建考研意愿拟合模型,让各大考研机构可以有针对向考研学生推广考研培训套餐,实现服务与意愿相匹配以及考研意愿的价值变现。

解决方案

任务/ 目标

查阅相关文献,将考研意愿作为因变量,将自变量分为六大特征(疫情、家庭、个人、学校、社会、个人基本信息)

数据源准备

数据来源是通过网络问卷获取,为了控制问卷质量,在问卷中设置一部分检验变量,最后获取问卷610份,412份有效,198份无效问卷。

特征转换

image.png

对于第一个问题,因为因变量为有序变量,意愿程度1—5,对考研意愿程度评价绘制分布图发现,考研意愿分布为正偏态分布,且是有序多分类变量,因此不能进行最小二乘法。对于这种情况一种处理方法是对因变量进行 Box-Cox 变换。但是缺点是有学者表示变换较大时容易扭曲原本内涵。另外一种是非参数方法分析,例如:秩变化分析,推广的 Cox 回归模型、Logistic 回归分析等等。当然还有机器学习的一些方法,如决策树模型、贝叶斯网络等等

由于变量众多,在做回归时,对变量进行降维处理,对五个成分进行命名。

image.png

其次学校因素是设置多选题,因此通过多重响应分析整合新变量。

image.png

建模一:解决第一个问题

根据前面变量表构造回归模型。

1.1 秩变化分析

秩变化分析是一种非参数方法,因为因变量不是正态分布,因此对因变量y进行秩变化然后再进行回归分析。

1.2 CATREG 分类回归分析

因为自变量有分类变量,因变量为有序变量,为了体现各类别差异,使用最优尺度变化,因此最优尺度是专门用于解决在统计建模时,如何对分类变量进行量化的方法。可将其作为一种预分析手段,通过快速发现各类别间的差异和联系,然后回到其他更易于理解和使用的分析结果。

建模二:解决第二个问题

对于提供考研服务的商家而言,学生的考研意愿如何变现是一个值得研究的问题。

本次根据收集的问卷数据,六大特征20个自变量通过构建分类模型,让商家有针对提供考研服务,减少过度服务带来考研学生反感以及较少服务带来考研学生不满足等问题,这样有利于考研服务商家减少资源浪费,实现考研意愿变现。

2.1 构造

以上说明了如何抽取相关特征,我们大致有如下样本(只列举部分特征)。

image.png

2.2 划分训练集和测试集

image.png

2.3 模型

经典决策树

上面数据可以看到不同类别之间分布不平衡,数据集中再4和5这两类。这对我们的分类精度会带来多大影响?我们先建立一个简单的决策树模型。

2.4 模型优化

由于因变量是多分类不平衡数据,因此我们对于多分类数据可以采取上下取样的方法调节不同类别的比例。对于二分类处理不平衡数据方法有很多,最常用的是SMOTE算法。对于多分类数据不平衡的处理有拆解法(把多分类变成多个二分类,进而生成多个分类器)、caret包里面的createdatapartition函数进行等比抽样、caret包提供的多种ML算法(downSample(),upSample()应用下采样和上采样方法)等等,考虑到模型复杂性以及抽样后样本包含的信息量等因素,采取upSample()进行抽样。

image.png

抽样后,每个类别比例为1:1:1:1:1,类别均衡。 前三个类别数量明显增加。

利用新抽样的样本进一步进行决策树分类。

建模一的模型结果:

秩变化分析:

image.png

CATREG 分类回归分析

image.png

在此案例中,问题一的建模得到结果一样,因此结果具有一定稳健性。根据结果可以发现外部因素对个体(家人和自己)的影响是不显著的。造成上面现象原因,我认为是在长期考研热下,影响人们的外部因素 已经潜移默化的转化为个人因素,导致考研思维固化,具有内部稳定性,所以在疫情影响下,个体考研的意愿程度并没有受到影响,这也有 2021 考研人数增长远小于预测。至于外部因素转化为内部因素,可能是个体对外部因素 无法改变而迫不得已接受。所以我认为在此背景下,考研已经步入新的阶段,即“考研内卷时代”。

建模 二的模型结果:

优化前模型效果:

绘制多分类ROC曲线

image.png

Auc等于0.54

image.png

从roc曲线和auc的值看出模型效果差。

优化后的结果:

image.png

image.png

从ROC曲线和AUC值看出优化后模型效果得到了明显提高。但是AUC在0-1的范围内靠近1,说明模型效果很好。一般大于0.8表明模型效果好。因此模型还有继续优化的空间。

比如:第一,采取其他分类模型(神经网络、knn、逻辑回归、C5.0等等)

第二,继续优化决策树相关参数

第三,增加惩罚矩阵

第四,抽样过程增加类别权重

第五,采取其他的方法处理多分类不平衡样本

第六,其他未知方法

关于分析师

image.png

在此对Xin Hu 对本文所作的贡献表示诚挚感谢,他专注数据分析和建模领域。擅长SPSS、Spss model、R语言、python。

9-What-executives-are-reading-in-2019-inline-r-1326x746.jpg

标签:分析,因变量,模型,分类,建模,意愿,考研热,考研
From: https://www.cnblogs.com/tecdat/p/18119585

相关文章

  • 2003年重邮801信号与系统考研真题与详解
    文章目录前言一对一极速提分辅导2003年重邮801信号与系统考研真题与详解前言重庆邮电大学801信号与系统考研真题与详解系列已制作完毕,现将逐步以免费的方式更新在微信公众号、博客上,其特点如下:①质量高:所有文字、公式、图形均自己编写、制作,确保清晰、质量高、掌握......
  • JMeter-压测问题分析
    【报错信息】Non HTTP response code: org.apache.http.conn.ConnectTimeoutException/Non HTTP response message: Connect to IP:端口 failed: Read timed outNon HTTP response code: java.net.SocketTimeoutException/Non HTTP response message: ......
  • 时间序列分析 #AR模型平稳性的判别
    理解AR模型的定义,能熟练写出AR模型的模型结构和特征方程的表达式;掌握AR模型平稳性判别的三种方法,即图示法、特征根法和平稳域方法。练习1、考察如下四个AR模型的平稳性:利用函数arima.sim或函数filter拟合上述四个序列的序列值,绘制时序图(以2×2的结构排列),并对图形做出解释......
  • 词法分析基础
    我们是袋鼠云数栈UED团队,致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值。本文作者:奇铭什么是词法分析要弄清楚什么是词法分析,需要先搞清楚代码是如何执行的。高级编程语言的代码通常需要通过翻译才能被机器执行,而翻译......
  • TalkingData——Unity应用开发中集成统计分析工具
    第一步:帐号注册官方网站:TalkingData-移动.数据.价值第二步:创建应用查看appid可以进入网站注册,注册好以后就可以创建应用 创建好应用后,点击 应用管理-》基本信息就可以查看自己的AppID第三步:申请对应平台的sdk 接下来就是申请sdk这里是申请sdk的网站:SDK定制填写......
  • go | 上传文件分析 | http协议分析 | 使用openssl 实现 https 协议 server.key、serve
    是这样的,现在分析抓包数据test.gopackagemainimport( "fmt" "log" "github.com/gin-gonic/gin")funcmain(){ r:=gin.Default() //Uploadsinglefile r.MaxMultipartMemory=8<<20 r.POST("/upload",func(......
  • Spring反序列化JNDI分析
    漏洞原理Spring框架的JtaTransactionManager类中重写了readObject方法,这个方法最终会调用到JNDI中的lookup()方法,关键是里面的参数可控,这就导致了攻击者可以利用JNDI注入中的lookup()参数注入,传入恶意URI地址指向攻击者的RMI注册表服务,以使受害者客户端加载绑定在攻击者RMI注册表......
  • 记一次 .NET某管理局检测系统 内存暴涨分析
    一:背景1.讲故事前些天有位朋友微信找到我,说他们的WPF程序有内存泄漏的情况,让我帮忙看下怎么回事?并且dump也抓到了,网上关于程序内存泄漏,内存暴涨的文章不计其数,看样子这个dump不是很好分析,不管怎么说,上windbg说话。二:WinDbg分析1.内存真的暴涨吗在.NET调试训练营中我一直......
  • (12-3-06)动漫推荐系统:数据分析(6)
    12.4.9 动漫类型(1)下面开始探索动漫数据集中的类型,首先将动漫数据集中的类型字段按逗号拆分,并通过explode函数将其展开为单独的行。接着,对拆分后的类型进行标题化处理。最后,统计并输出唯一类型的总数以及每个类型的出现次数。top_anime_temp3=top_anime[["genre"]]top_an......
  • 基于R、Python的Copula变量相关性分析及AI大模型应用
    在工程、水文和金融等各学科的研究中,总是会遇到很多变量,研究这些相互纠缠的变量间的相关关系是各学科的研究的重点。虽然皮尔逊相关、秩相关等相关系数提供了变量间相关关系的粗略结果,但这些系数都存在着无法克服的困难。例如,皮尔逊相关系数只能反映变量间的线性相关,而秩相关则......