标签：SVM Python 模型分类 RankGauss 消费聚类数据

?p=32968

原文出处：拓端数据部落公众号

分析师：Wenyi Shen

校园的温情关怀是智慧校园的一项重要内容。通过大数据与数据挖掘技术对学生日常校园内的消费信息进行快速筛选和比对，建立大数据模型，对校园内需要帮助的同学进行精准识别，为高校温情关怀提供有效的数据依据。

该项目解决的主要问题是如何通过数据挖掘技术筛选和比对学生消费信息，从而自动识别校园内需要帮助的同学，为高校扶贫提供数据依据。

模型假设与问题分析

模型假设

三点假设:

没有同学使用自己的账户为他人垫付，每一笔消费均为本人所为。
在全部数据的60天内，认为消费总次数小于80次的为经常点外卖的人，剔除他们，不认为属于低消费人群。
不存在收费错误的情况。

数据清洗

剔除时间异常值

数据共计260多万条条，从20年9月1日6时一直持续到20年10月30日19时。但其中有“9月31日”的数据，我们将其删除。

为了减少计算量，我们从200万条数据里随机选取20000条进行训练，最终获得两个聚类簇，以及各个簇的最大最小值。考虑到数据选取的随机性，本文将消费金额80作为异常值阈值，删除所有消费金额大于80的数据，保留下约98%的正常数据。

我们观察消费价格后发现，有少部分消费金额数据在1000甚至10000以上，这部分数据是异常数据，我们采用密度聚类(DBSCAN)算法来寻找一个阈值进行划分。

窗口与价位分类

窗口分类

对数据进行了Z-score标准化，以消除数据中的量纲差异，使得每个特征在模型中的影响程度相等。

绘制出标准化后的数据的SSE(Sum of Squared Errors）随分类个数变化的肘形图如下图所示:

使用簇为4的k-means聚类算法对标准化后的数据进行聚类，并得到各个分类中心的经过标准化后的均值和标准差及每个数据的所属的簇（即标签）

将标准化后的数据还原，并画出平均消费价格和消费价格的方差与分类标签的关系图，如下图所示:

价位分类

最终的聚类效果如下。根据每个簇的最大最小值，将消费分为低、中、高三个价位，分别界定为小于10.37元，10.37元到24.67元和大于24.67元。

低消费指数模型

我们选取下面7个自变量参与模型训练:夜宵次数，午饭金额，晚饭金额，下午茶金额，夜宵金额，中消费频率，高消费频率。然后，用户的消费分类cluster变量将作为y标签。

我们以70%的数据做训练集，30%做测试集，建立SVM(支持向量机)分类模型，输出测试数据的准确率、精确率、召回率和F1值，以及混淆矩阵热力图，效果如下所示:

训练SVM模型后，我们获得了权重和偏置项，如下表所示，后面计算概率矩阵时会用到这些参数。

低消费指数模型

简单的说，RankGauss首先将该特征按照大小排序，计算出每个值的排名（排名从1开始);然后将排名除以n+1，其中n是该特征的样本数量，得到一个0到1之间的比例因子;最后将比例因子作为标准正态分布的累积分布函数(CDF）的输入，得到转换后的数据，如下表所示。

通过RankGauss标准化，可以看到，原本极小的数据也能转化到10个(-3)数量级及以上，在保留了模型可解释性和科学性的同时规范化了数据，便于数据参与二次运算。相较于其他标准化算法，只有RankGauss能做到将任意分布的数据映射到高斯分布，并且保留原始特征的顺序关系，同时规范减小数据的数量级差异。