一个典型的个贷评分卡挖掘建模项目（3）

3. 评分卡模型开发步骤

3.1.数据挖掘目标

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘目标是从数据中发现隐含的、有意义的知识，通过预测未来趋势及行为，做出前摄的、基于知识的决策。

本次项目的数据挖掘目标是构建申请评分模型，通过计算客户的申请阶段的风险评分，预测信贷申请客户未来一段时间内的违约概率，切实提高**银行零售事业部风险计量水平和风险管理能力，优化信贷资产，降低不良率，提升零售金融事业部的服务质量。

3.2. 指标设计

**银行个贷产品的申请评分卡建模的模型指标主要来源与**银行零售事业部个贷系统的业务数据和第三方传递的征信系统数据，同时包含在后续模型优化中添加的征信衍生指标。

总体要素	细化要素	指标个数	指标举例
客户申请信息	基本信息	15	年龄、性别、婚姻状况、学历、本外地户籍标识……
	职业信息	5	公司性质、行业、职位、工作年限……
	资产及收入信息	20	工资等级、月申明收入、核实收入、私家车与否、缴纳社保/公积金、银行存款额……
	负债信息	20	资产负债比、核实负债、每月租房/按揭贷款金额、抵押贷款总额、无抵押贷款总额、无抵押贷款每月供款、抵押贷款每月供款……
	产品特有信息	17	期限、新客户/续贷、申请产品类型、发薪方式、房龄、物业面积、物业使用类型、私企类型、经营年限、员工人数、经营场所、收入总计……
人行征信信息	信贷产品组合	48	未销户账户数、授信机构数、单家行最高授信金额、未结清非抵质押贷款笔数、抵/质押担保笔数占比、
	信用历史长度	6	贷记卡信用长度、准贷记卡信用长度、（除房贷）贷款信用长度、总体信用长度……
	未偿债务/负债水平	33	未销户贷记卡使用额度占比、未销户贷记卡最近6个月平均使用额度、将来2个月贷款到期金额数
	历史负面表现	56	呆账余额、呆账笔数、6个月最大逾期次数、6个月最大逾期期数、客户上一次发生逾期的时间
	新信贷申请	16	近2个月查询记录次数、近6个月查询记录次数、信贷产品数与审批查询次数比率
	其他	11	学历、婚姻状况、住房公积金缴纳情况、养老保险缴纳情况、联系方式与本地信息是否匹配……
综合衍生指标（对以上指标进行二次加工）		29	借贷余额与申明收入之比、借贷余额与核实收入之比、未结清（非）抵质押贷款占比（余额/金额）、申请贷款金额与核实收入之比……
总计		268

3.3. 指标预处理

数据预处理过程主要包括缺失值填充、异常值处理，最后对生成的数据进行抽样，从而得到建模需要的样本。

3.3.1.缺失值处理

数据缺失是在很多科学研究中经常出现的现象，在信用评分模型开发过程中也普遍存在，如何选择合适的方法对不完整的数据集进行分析至关重要。缺失数据带来的主要问题有：效率降低、数据的处理和分析复杂、观察到的数据与未观察到的数据间的差异所产生的偏差。一般来说，数据缺失值处理方法包括下面三类：

1、删除缺失数据。对具有属性缺失值的数据的丢弃主要有两种方法：第一种方法是完全样本点分析：它对数据缺失值的处理就是删除所有具有属性缺失值的样本点。第二种方法是丢弃样本点和（或）属性。这种方法是首先统计每个样本点和属性的数据缺失程度，然后删除数据缺失程度高的样本点和属性。但在删除属性之前，一定要做该属性与分析工作的相关性分析，如果该属性与分析工作有较大的相关性，即使该属性具有较高的缺失率，也不能将其删除。

2、采用统计技术。参数估计EM（Expectation Maximization）是一个著名的算法，用来估计不完全样本点的概率密度函数的参数。这是一个最大似然过程。它的主要缺点是：①收敛速度太慢；②需知道样本点的概率分布，但在许多实际问题中，样本点的概率分布是未知的。

3、对缺失值进行填补。填补方法就是根据数据集中己知的信息，给缺失的数据值推测出一个估计值。最常用的填补方法有以下3种：

① 人工填写空缺值

由数据分析人员或领域专家找回丢失的数据，这种实用于真实数据易于采集到的指标。如果各指标数据缺失较严重，而且数据很难再收集到，可以考虑手工删除。

② 用全局常量替换丢失值

针对某个群体，由于共同的原因导致同一类指标数据缺失，可以用全局常量替换丢失的值，以区别于其他不同的群体。在这种情况下，数据丢失的判断转换为群体的识别。在对变量进行分箱的情况下，可以将缺失值单独作为一类，这样做的好处是，在建模的过程中将缺失值所反映的信息利用起来，用于对好坏账户的区分。

③ 用特征平均值替换丢失值

对于一些非决定性指标而言，在保证不影响数据质量的前提下，可以采用指标的特征平均值替换丢失值。

为了保证建模指标计算的逻辑性、真实性，避免填充数据导致评估结果出现较大的偏差，将对评分指标缺失数据进行全局常量替换。由于本次建模的变量均采用分箱的方式处理，因此我们将缺失值单独作为一类，赋予该类别相应的取值。

3.3.2.异常值处理

现实数据中或多或少可能存在一些错误和异常数据（手工录入错误或其它因素导致的错误），计算解释变量后，也会得到异常的指标值。异常值(Outlier)是指数据中不正常地过大或过小的值。异常值会对某些统计量产生较大影响，比如最常用的平均数和标准差。建模过程中，对于连续变量需要进行异常值处理，用样本数据统计分析中得到的上限和下限来替代。

由于本次建模的变量采用分箱的方式处理，且原理是针对对好坏账户的区分所做的最优化分箱，因此，不需要对异常值进行特别处理，而是将异常值纳入到与其自身相似的风险特征群体里。

3.4.建模

在数据挖掘技术中主要的预测模型有Logistic回归，神经网络，决策树等等。

神经网络模型处理非线性关系有很好的预测性和稳定性，但神经网络模型的结果为黑匣子，不利于模型的解释和应用。
决策树模型属于非参数的预测模型，不用考虑目标变量和解释变量的本质，但极大程度的灵活性也有一种缺点，例如要求很高的计算资源，而且它们按顺序的特性和算法的复杂性使得它们依赖于观测数据，甚至一个很小的变化都可能改变树的结构，所以这种模型缺乏稳定性。
Logistic回归模型稳健性较强，具有一定的可解释性，并且能够产生一个线性评分，所以用Logistic回归建立的预测模型是最优的、最利于模型部署的模型。因此这里使用Logistic回归。

3.4.1.变量分箱

本次项目的评分卡建模使用Logistic回归模型进行建模，Logistic回归模型是线性模型。使用变量分箱方法对变量进行数据分箱，不同bin的群体间有特征差异，这样不仅可以将非线性变量通过woe变量转换为线性变量，而且可以对线性变量进行区间划分。分箱的方法包括：等宽分箱、等深分箱、ChiMerge技术分箱、人工分箱。

等宽分箱：对变量数据按照数据范围进行分箱，每块区间长度相同，这种分箱适合数据分布均匀的变量。

等深分箱：对变量数据按照频数进行分箱，每块区间内变量数据量相同，这种分箱适合非均匀分布的变量数据。

ChiMerge技术分箱：ChiMerge是一种自动化的离散算法，使用卡方统计对变量划分的相邻区间进行针对目标变量的相似性判定，即判定相邻区间的坏账率是否相似，若相似则进行合并。如果卡方检验的结果是区间类统计差异不大，具有相似特征，那么区间进行合并，否则就表示区间之间的统计差异很大，不能合并。

人工分箱：对数据变量进行人工分箱，根据业务理解调整区间得出合理的分箱。这种人工调整的优点是比较符合业务实际，缺点是工作效率低，同时由于是人为调整，无法排除分箱操作分析者的主观性。

对**银行零售事业部零售评分卡模型的变量分箱工作，综合考虑了各个分箱方法，最终选择采用ChiMerege算法实现，通过SPSS工具最优化分箱模块对所有变量进行分箱工作，并对最终筛选出的变量进行业务上的交互调整。

3.4.2.单变量筛选

数据挖掘一个重要的过程就是变量选择，即从原始的变量池中，选择出最终的10个左右变量以建立模型。变量选择是一个反复的过程，并且会使用不同的方法来进行选择，一般来说，变量选择会用到以下方法：数据缺失变量筛选、数据分箱变量筛选、变量聚类分析。以下着重介绍一下变量聚类分析筛选的基于IV值的筛选方法：

信息价值IV是用来衡量某个变量对好坏客户区分能力的一个变量。IV的计算公式为：

IV的值越大标识好坏客户在该变量上的分布差异性越大，也即该变量的区分能力越好。反之，IV的值越小，变量的预测性越低，一般有如下的IV值变量选取方法：

IV值小于0.02，变量没有可以预测性；
IV值在[0.02,.01），变量预测性低；
IV值在[0.1，0.3)，变量预测性一般；
IV值大于等于0.3，变量预测性高。

在进行评分卡建模的变量筛选过程中，一般选取IV值大于0.02的那些变量进入模型，对变量IV值小于0.02的变量进行变量筛选。

3.4.3.变量转换

3.4.3.1.变量WOE(Weight Of Evidence)转换

对变量进行分箱和信息转化是发展信用评分模型常用的数据处理技术，在信用风险评分模型中把变量划分成若干区间，即进行变量分箱，而WOE则是用来度量连续变量或分类变量每个区间或类别好坏客户样本分布情况的指示性变量。WOE计算公式为：

在信用评分模型中，变量某个属性的WOE值越大，风险越小。WOE=0表示“好”“坏”的百分比相当，WOE>0表示“好”的百分比大于“坏”的百分比，WOE<0表示“好”的百分比小于 “坏”的百分比。

使用WOE值替换变量，有其优越性：

（1）能有效捕捉数据中蕴藏的非线性关系。利用分箱和信息转化技术可以准确地捕捉住这种非线性关系，如果不对变量进行转化，将预测变量都视为线性变量，则容易产生较大的误差。

（2）能有效地把分类变量纳入到模型之中。部分变量不是某种数量值，绝大多数回归模型无法直接对分类变量进行统计，或者必须把它转化成复杂的现实性变量，这使得分类变量的模型化非常困难，但通过分箱和信息转化，用WOE值替代原来的字符值，从而可以轻松地将分类变量纳入到模型当中。

（3）能有效地处理缺失值。用WOE值来替代原来的缺失值，可以充分利用缺失所包含的有效信息，并将该信息运用到模型分析中。

总结起来，在信用评分模型中，对变量进行分箱并使用WOE值作为每个分箱的属性值，有很好地风险预测效果。本次申请评分卡项目对变量进行分箱化处理后，使用WOE值代替各个分箱的值，参与到后续模型的计算。

3.4.3.2.变量标准化转换

在数据建模之前，通常需要将数据标准化，利用标准化后的数据进行数据分析。数据标准化处理主要为去除不同数据之间量纲问题和数据同趋问题。数据同趋化处理主要解决不同性质数据问题，对不同性质变量直接加总不能正确反映不同作用力的综合结果。而数据无量纲化处理主要解决数据的可比性。主要的标准化方法有：最小-最大标准化、Z-score标准化和小数定标标准化。

最小-最大标准化

假定minA和maxA分别是属性A的最小值和最大值。最小-最大标准化变换通过下列变换投射到新的区间中[newminA,newmaxA]：

Z-score标准化

属性A的值是基于A的平均值和标准差标准化。A的值v

被规范化为v'

,由下列公式计算：

其中，μ 为属性A的均值，σ 为标准差。

小数定标标准化

通过移动属性A的小数点位置进行标准化。小数点的移动位数依赖于A的最大绝对值。A的值v

被规范为v' ，由下列公式计算。其中 j 是maxv'<1 的最小整数。

对于本次建模变量，由于都进行了WOE处理，不存在数据性质不同的问题，即不需要进行数据同趋化处理，但数据之间仍然存在量纲上的差异，需通过数据标准化处理，这里主要使用Z-score标准化进行数据处理，消除数据之间的量纲问题，经过上述标准化处理，各个变量值都处于同一个数据级别上，可以进行相互之间重要性地比较。

3.4.4.多变量筛选

通过单变量筛选后，筛除了部分对预测能力较弱的变量。在现有预测能力较强的变量中，还需进一步进行多变量筛选。单变量筛选阶段，主要考虑单变量与目标变量的相关性；多变量筛选阶段，则主要考虑变量之间的相关性。多变量筛选工作主要包括三个阶段：变量聚类、簇内变量Logistic回归、变量相关性检验。

3.4.4.1.变量聚类

变量聚类是将评分卡变量聚类成不相交的或分层的簇，关联的每个簇是簇中变量的线性组合，这个线性组合可以是第一主成份（principal component），也可以是重心成分（centroid component），第一主成份是变量集合的加权平均，能够最大程度地解释方差。变量聚类开始时所有变量在一个簇中，聚类过程按照下面的步骤循环进行：

（1）首先挑选一个将被分裂的类。通常这个被选中类的类分量所解释的方差百分比最小或者同第二主成分有关的特征值为最大。

（2）把选中的类分裂成两个类。首先计算前两个主成分，再进行斜交旋转，并把每个变量分配到旋转分量对应的类里，分配的原则是使变量与这个主成分的相关系数为最大。

（3）变量重新归类。通过多次循环往复，变量被重新分配到这些类里，使得由这些类分量所解释的方差最大。

当每一类满足用户规定的准则时，变量聚类过程停止。所谓准则，或是每个类分量所解释的方差的百分比，或是每一类的第二特征值达到预设定的标准为止。如果没有准则，则当每个类的特征值大于1时，变量聚类过程停止。

3.4.4.2.簇内变量Logsitc回归

在回归的过程中，仍要进行变量筛选以找到最优的模型。使用比较普遍的Logistic回归技术主要有三种：向前选择（forward），向后淘汰（backward）和逐步回归（stepwise）。

向前选择（forward）：即首先选择一个最好的单变量模型，即选择一个预测能力最强的解释变量，然后逐步添加去创建最好的两变量模型、三变量模型等等，直到剩下的解释变量中没有任何一个的p值小于预设的显著性水平（比如，0.5）。这种方法虽然有效，但在解释变量太多或变量之间具有高相关性时则表现不佳。
向后淘汰（backward）：与向前选择正好相反，这种方法开始时将所有的解释变量都包含在模型中，然后依次淘汰模型中显著性最小的变量，直至剩下的所有解释变量都有低于显著性水平（比如，0.1）的p值。这种方法使得显著性比较低的变量进入模型当中的可能性更大，而另外两种方法一般只由一两个预测能力非常强的变量主导。
逐步回归（stepwise）：逐步回归法则是这两种方法的综合，它动态地添加或撤销变量直至最好的组合产生。由于这种方法综合了前两种方法的优点，本项目选择stepwise进行Logistic回归。

对变量聚类后的17个簇按照IV值进行弱到强地排序，依次进行簇内变量Logistic回归，从而尽可能使得模型中保留更多地变量维度。在每个簇内变量 Logistic回归中，保留其中最优的一个变量，即优先进入模型、综合预测效果最好的变量，从而剔除其他共线性较强的变量。

对变量进行业务上的分析，部分变量簇不符合业务逻辑（cluster3、cluster5、cluster7、cluster17），cluster3、cluster17内的变量业务上认为没有意义；cluster5、cluster7内的变量逾期率分布与业务理解不符，无法解释。在进行簇内变量Logistic回归前，筛除这部分变量簇，剩余13个簇进行Logistic回归分析，保留簇内最优的变量，分析结果如下，其中绿色标识的变量为最终保留的变量（其中，第八步Logistic回归筛选的最优变量为“未销户贷记卡使用额度占比”，但考虑到业务上的解释以及未来的应用，将该变量用同一个聚类簇里的变量替代。

3.4.4.3.变量间相关性分析

相关性分析是指对两个或多个具备相关性的变量进行分析，从而衡量两个变量的相关密切程度。两个变量线性相关性的大小一般用相关系数来衡量。由于Logistic回归属于线性回归，因此用相关系数来衡量变量之间相关性的大小。

Logistic回归的假设前提是要求解释变量之间具有独立性，否则会造成回归方程的不稳定，因此需要分析解释变量之间的相关性和共线性，剔除相关性较强的变量中IV值比较弱的变量，从而保证纳入Logistic回归的解释变量之间保持独立。

3.4.5.模型训练结果

客户申请评分模型用于评估新申请客户的信用，其实质是预测建模，即根据客户相关申请数据来预测客户的信用等级，即好坏程度。

3.4.5.1. 多变量Logistic回归

用多变量Logistic回归建立申请评分模型。

由于Logistic回归模型的一般形式为：

其中：

是违约概率（即y=1的概率）， α代表截距大小，β 为回归系数，X 代表独立变量。

使用多变量Logsitic回归对通过变量筛选后的9个变量纳入模型，最终得到9个变量构成的回归模型，模型中变量的特征项、权重如下所示：

序号	变量	标签	权重	特征项	WOE_标准化
1	M3_QUERY_COT	近XX月查询记录次数	-0.5021	x < 2	1.195621
				2 <= x < 4	0.202739
				4 <= x < 8	-0.78278
				8 <= x	-1.84523
2	CARDLONG	未销户贷记卡信用历史长度	-0.3601	.	-0.78085
				x < 6	-1.70736
				6 <= x < 12	-1.10548
				12 <= x< 24	-0.45326
				24 <= x < 48	0.452662
				48 <= x	1.254753
3	SEX	性别	-0.2364	女	1.682998
				男	-0.59414
4	AVERAGECREDITLIMITUTILIRATE	未销户贷记卡最近6个月平均使用额度占比	-0.1816	.	-0.9158
				0% < x < 50%	1.424078
				0% or 50% <= x	-0.53976
				100% <= x	-1.57665
5	HASCAR	私家车与否	-0.2091	null	-1.34177
				无	-0.7161
				有	1.229757
6	MAX_6MON_LOANOVERDUECOT	贷款6月最大逾期次数(每笔贷款)	-0.1318	.	0.666948
				x < 1	0.251026
				1 <= x	-2.83268
7	MARITALSTATUS	婚姻状态	-0.145	未婚	-0.55188
				已婚	0.495367
				其他	-2.89733
8	SUM_FDZY_COT	未结清非抵质押贷款笔数	-0.1294	SUM_FDZY_COT < 1	1.028099
				1 <= SUM_FDZY_COT < 4	-0.36441
				4 <= SUM_FDZY_COT	-3.48479
9	HASSOCIALSECURITY	社保缴纳/公积金	-0.0738	null	-1.61579
				无	-0.72519
				有	1.1177

3.4.5.2. 模型内变量检验

3.4.5.2.1. 业务解释检验

变量1：

分析变量近XX月查询记录次数，查询次数越高，坏账率越高，查询记录次数与坏账率正相关，符合业务逻辑。

变量2：

分析变量信用历史长度变量，历史长度越长，客户的坏账率越低，目前未开卡的客户群体与开卡6-12个月的客户群体的坏账率相似，低于刚开卡的客户群体。可以看出信用历史长度越长，坏账率越低，贷记卡历史与坏账率负相关，符合业务逻辑。

变量3：

变量4：

变量是否有私家车，在坏账率分布看，无私家车与有私家车相比，坏账率较高。缺失部分的坏账率更高，分析原因，考虑这部分客户刻意隐瞒该信息，风险更大，符合业务逻辑。

变量5：性别

性别变量反映了在不同性别上客户坏账率的分布，一般来说，男性客户更具有冒险精神、未来的不确定性更大，风险较大；而女性客户则更加谨慎，风险相对较小。该变量与坏账率的分布符合业务逻辑。

变量6：

变量7：

婚姻状态能够反映客户的稳定情况，一个已婚人士经济、生活、心理状态都要比未婚人士稳定，其风险要低于未婚人士。而婚姻状态为离异、丧偶、未知状态的风险则要高于未婚和已婚客户。坏账率分布与实际业务分析相符。

变量8

变量9：

模型变量分布情况反映了变量的账户分布，也反映了不同变量值对应的坏账率分布，其风险程度与数据分布一致（正相关、负相关），经过业务确认，将这些变量纳入评分卡模型具有业务上的逻辑意义。

3.4.5.2.2.共线性检验

所谓多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

目前常用的多重共线性诊断方法有：

1.自变量的相关系数矩阵R诊断法：研究变量的两两相关分析，如果自变量间的二元相关系数值很大，则认为存在多重共线性。但无确定的标准判断相关系数的大小与共线性的关系。有时，相关系数值不大，也不能排除多重共线性的可能。

2.方差膨胀因子（the variance inflation factor，VIF)诊断法：方差膨胀因子表达式为：VIFi=1/（1-R2i)。其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时，表明自变量间存在多重共线性。该诊断方法也存在临界值不易确定的问题，在应用时须慎重。

3.条件数与特征分析法：在自变量的观测值构成的设计矩阵X中，求出变量相关系数R的特征值，如果某个特征值很小（如小于0．05 ），或所有特征值的倒数之和为自变量数目的5倍以上，表明自变量间存在多重共线性关系。利用主成分分析，如果X′X的特征值RK小于0．05时，RK所对应的主成分FK可近似为零，表明自变量间存在K个多重共线性关系。

如果检验结果表明变量之间存在多重共线性，应考虑剔除部分变量。

本次项目进行了变量间相关系数、方差膨胀因子和条件指数的检验，结果表明变量之间没有多重共线性。

3.4.5.2.2.稳定性检验

验证模型内变量在时间外样本是否稳定，主要通过单变量PSI检验。通过对模型发展群体（开发样本）在单变量特征值上的分布百分比和时间外验证群体在单变量特征值上的分布百分比的比较、转换，统计出一个反映单变量从模型开发到时间外验证的客户群体变化幅度大小的稳定性指数PSI（Population Stability Index）。指数越高，稳定性越低，客户群体在单变量上的分布变化越大。单变量PSI高于一定程度，说明该变量会造成模型不稳定，无法应用于后续实施样本，应从模型中剔除。

PSI的评判标准如下：

PSI	模型稳定性
0.1以下	稳定性较高
0.1-0.25	评分分布发生了变化，需要关注
0.25以上	评分分布发生较大变化，可能需要作适当调整

本次项目通过计算时间外样本（2018年3月放款客户和2018年4月份放款客户）与开发样本之间单的变量PSI，来验证模型内变量的稳定性。各个变量的PSI值均小于0.1，说明变量稳定性较好，无需进行变量调整和替换。

（搞累了，明天再补充后面的模型验证内容，参见一个典型的个贷评分卡挖掘建模项目（4））

标签：分箱,变量,评分,模型,个贷,建模,Logistic,数据,缺失
From： https://blog.csdn.net/xushengyongat/article/details/136825133