一、校赛初知
1.1校赛题目
近年来,随着精准资助的开展,如何准确判定高校家庭经济困难学生、切实完善精准资助手段,对高校资助工作具有重要意义。隐性资助是通过大数据挖掘的形式,找准家庭经济困难学生的行为或经济状况特征,隐形认定(识别)出困难学生,并通过隐形实施的方式(不评比,不公示)给予适度的资助补偿,以保护家庭经济困难学生隐私,助力实现教育公平。随着信息化水平的提高,学生部分消费数据(如食堂三餐消费)有效记录并留存。通常认为学生经济情况可以通过餐厅消费金额、消费品类与消费次数等信息间接反映。某管理部门仿真了一组学生的消费数据。请建立数学模型解决如下问题:
1. 附件0是性别信息。附件1-3是该组学生不同学年的日三餐餐厅消费金额数据记录(部分),附件4-7同时给出了其中部分同学的饮食种类信息。请你的团队针对这些数据建立模型,挖掘不同代表性群体,并定量分析该群体三学年的主要消费行为特征变化规律、饮食种类变化规律等。注意建模前需对数据进行必要预处理(如删除不相关数据、缺失补全、特征提取等)。
2. 除以上信息外,附件8给出部分同学第一学年后经其它方式认定的贫困程度等级(粗粒度),其中等级2准确(可能不全)、其它等级认定可能有少量偏差。请建立数学模型依据消费行为(附件1-3)预测贫困程度,补全附件9(不要改动附件9的已有数据及顺序)并作为附件提交;进一步结合第1问研究结论预测该组同学第二、第三学年的贫困程度隐形认定等级,分析相关变化。
3. 在第2问基础上,结合附件4-7饮食种类数据,改进你们的预测模型,比较分析相关同学的预测结果变化情况。
4. 通过以上贫困生本质特征挖掘,构建差异化(细粒度)资助额度分配算法,并以第三学年为例给出具体结果:对象为附件4-7中涉及的同学、资助总金额10万、资助人员80名,并对资助结果的公平合理性进行评估。
附件0 性别标签;
附件1 第一学年消费数据;
附件2 第二学年消费数据;
附件3 第三学年消费数据;
附件4-7 部分同学的三学年饮食种类信息;
附件8 已知贫困标签;
附件9 贫困标签待补全名单(问题2)。
注1:提供的所有数据表中同一序号是代表同一个人。
注2:数据中金额的单位为“分”。
二、题目思路分析
2.1关键字抓取
- 附件0是性别信息。附件1-3是该组学生不同学年的日三餐餐厅消费金额数据记录(部分),附件4-7同时给出了其中部分同学的饮食种类信息。请你的团队针对这些数据建立模型,挖掘不同代表性群体,并定量分析该群体三学年的主要消费行为特征变化规律、饮食种类变化规律等。注意建模前需对数据进行必要预处理(如删除不相关数据、缺失补全、特征提取等)。
- 除以上信息外,附件8给出部分同学第一学年后经其它方式认定的贫困程度等级(粗粒度),其中等级2准确(可能不全)、其它等级认定可能有少量偏差。请建立数学模型依据消费行为(附件1-3)预测贫困程度,补全附件9(不要改动附件9的已有数据及顺序)并作为附件提交;进一步结合第1问研究结论预测该组同学第二、第三学年的贫困程度隐形认定等级,分析相关变化。
- 在第2问基础上,结合附件4-7饮食种类数据,改进你们的预测模型,比较分析相关同学的预测结果变化情况。
- 通过以上贫困生本质特征挖掘,构建差异化(细粒度)资助额度分配算法,并以第三学年为例给出具体结果:对象为附件4-7中涉及的同学、资助总金额10万、资助人员80名,并对资助结果的公平合理性进行评估。
2.2思路提取
2.2.1 数据预处理
整个题目的前提是对数据进行预处理,讲附件0-7的数据通过python或者spss进行处理,删除不相关数据、缺失数据等,提取有效特征。特征是整个题目最重要的数据来源。
2.2.2 对每一问的思路
对问题一的分析:通过数据预处理、特征提取和 K-means 聚类模型等方法,对同学的消费数据进行分类,分析不同群体的代表性和消费行为特征变化规律。同时对饮食种类数据进行分类整理,并结合描述性统计分析,探究不同年级同学的饮食变化规律。
对问题二的分析:需要对附件 8 的数据进行处理和筛选,建立随机森林分类模型,预测附件 9 人群的贫困等级,并补全附件 9。同时,将第一问的结果与消费行为数据、种类分类数据和人群划分数据结合,针对第二和第三学年进行隐形贫困认定等级的预测。
对问题三的分析:需要对附件 4-7 的饮食种类数据进行预处理和特征提取,在第 2问的基础上建立优化后的预测模型,比较分析新旧模型的预测结果并探究饮食种类对贫困程度预测的影响。同时,还可以进一步分析不同饮食习惯的学生群体在贫困程度上的差异,提供更有针对性的建议。
对问题四的分析:需要在前三问的基础上,根据学生的消费行为和饮食种类变化规律,构建差异化资助额度分配算法。可以采用层次分析法,通过确定问题的层次结构来挑选出消费指标最低的 80 名学生,并为他们分配 10 万元资助金额。最后通过基尼系数评估资助结果的公平合理性。
注意:思路不代表正确和合理,我是通过校赛期间不断的组内讨论,不代表最终方案。
第一问模型:K-means 聚类模型
第二问模型:随机森林分类模型
第三问模型:随机森林优化模型
第四问模型:层次分析+线性回归模型
如有更好的思路,可以评论区或者私信一起交流~~~
三、校赛经验总结
校赛已经结束,很遗憾,情绪比较失落,我们是实打实的进行了讨论研究7天,熬了3-4天的夜。还是比较不甘的。昨天数学建模老师上课已经对题目进行了指点和部分讲解。说了一些得分的重点。对于大数据的同学来说,这道题第一个拦路虎就是数据的预处理,并抽取特征值。其次就是好好审题分析问题问什么,用什么适合的模型来解答,找到合适的模型就要找我需要那些特征值数据进行分析和模型的训练等,对于我这个菜鸟来说,第一次接触,也是感触颇深。希望能吸取经验和做题教训。
个人复盘总结:
1. 数据预处理过程写作描述不清晰,如删除了那些数据、不相关数据等。
2. 第一题模型建立没有问题,定量分析出现变成了定性分析,没有描述准确具体的数据,进行横向、纵向的变化比较分析。(摘要里面也没有体现出来)
3. 第二题,整体模型没问题,贫困程度2是准确的我们没有抓住这个,应该用这个来建立模型和训练模型和进行接下来的预测。
4. 第三题我觉得通过参数的调优来进行模型的优化是没有问题的
5. 第四题,出现了审题不清晰,构建(细粒度)资助额度分配,那么人群的分类肯定是要比三类多,那么我们没有读懂前后的(细粒度和粗粒度的变化)任然用三类,那么必然是存在错误的。 第四问,用综合评价模型的层次分析法不是不行,但是不是最优,也就是可以解决问题,最优方案是最优化模型,比赛当时是没有想出来+刚学了层次分析法。最后用的线性回归模型求解是在解决分配金额的最优化,用基尼系数来进行公平性的评价,应为受前面的分类影响(三类),整体的基尼系数偏高,不是很合理。
6. 对整个校赛过程的看法和评价,每个同学都是在努力解决问题,经验相对不足,写作、建模、代码缺一不可,要多多加强交流,分享自己的看法和思路,集思广益,目的是锻炼思维和写作等能力,其二是完成比赛。 团队目前缺陷:对题目理解和模型的抽取建立,相对有一定的差距(我们不最求最优)。写作部分摘要整体要总分总或者分总的形式,对于每一个问题:要回答每一个问题所问的,我们是怎么做用了什么模型,得到什么结果,回答什么问题(说出一些变化)。正文图表得展示,都要合理,关键数据一定要罗列出来,模型建立切记不要照搬公式,要善于模型要适应题目接地气~。
代码方面,比较依赖spsspro的环境,需要不断提升用代码来处理数据和进行检验分析的能力。代码能力有待加强。
四、校赛经验分享
首先是代码能力这一块儿,首先如果队伍的编程能力不是很突出,那么建议学会用spss和spsspro,目前全国大学生数学建模比赛是支持使用的,同样如果用spsspro软件可以在进行数据的预处理和数据分析,在运用模型的时候可以生成代码,复制到spsspro的环境下,也可运行。到后面python和matlab编程能力上来了再进行转换也是可以的。
其次是论文的书写,注意的是以参考全国优秀论文的格式,切记不可自创一派。承诺书、摘要、问题重述、问题分析、模型假设、符号说明、模型建立及求解、模型评价、模型改进方向、模型推广等。最后是图表丰富,胜过千言万语。
最后是模型建立和求解,记住数学建模比赛是模型为王的比赛,一个好的模型或者说是适合的模型,对解题和评奖得分都是轻轻松松,眼前一亮。所以模型的建立前提是对题目的合理审题,切勿过度审题。其次是脑子里面知道什么模型解决什么问题,那些问题时候什么模型。然后是选取最适合这个题目的模型而且是解题起来最方便的。最后是模型的建立的书写,一定一定不要照抄别人的或者课本的模型建立,一定要将模型的建立本土化或者说是与题目结合起来,避免空洞。
五、完整论文文件
我的gitee地址自取------地址
欢迎数学建模爱好者一起交流讨论,文章和解题思路不足之处请多多指教