模型评估是整个建模周期中基础且核心的部分。选择恰当的评估指标,可以使模型训练和测试事半功倍。
模型训练后,我们需要对刚训练出来的模型通过一系列指标进行关于稳定度、区别能力等效果的度量。
主要介绍以下常见评估指标:
-
评估模型稳定度指标PSI、CSI;
-
评估模型区别能力指标AUC、Gini、KS。
PSI (Population Stability Index)
可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。
PSI最早应用于评估评分模型的稳定性,但是,PSI指标在风控策略、产品利率等多方面也是有应用的。
其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化
PSI小于0.1时候模型稳定性很高,0.1-0.2一般,需要进一步研究,大于0.2模型稳定性差,建议修复。
PSI的计算公式=SUM((Actual % - Expected %)*(LN(Actual % / Expected %)。
CSI(Characteristic Stability Index )
CSI用来衡量样本在特征层面上的分布变化,反映了特征对评分卡分数变化的影响。
能帮助我们理解入模特征变量对模型分数波动的影响以及背后的客群分布偏移原因。这对风控模型不稳定时追溯定位原因具有重要意义。
CSI的计算公式可以写成:
GINI指标(基尼系数)
Gini系数是国际上通用的,用以衡量一个国家或地区居民收入差距的常用指标,所以,应用在评分模型中它也是表征评分模型的区分能力。
Gini的计算公式:
cpY是收入排序后的累计比例,cpX是人口的累积比例,其结果是一个秩相关系数,很多统计软件包比如SAS提供的Some’s D,其实就是Gini系数。
在评分卡中,可以看下面表来理解下Gini的计算过程:
其中,G_num代表好客户数量,B_num代表坏客户数量,Retain代表累积。
虽然Gini指标与Ks一样也是金融评分模型界通用的核心指标,但是它的使用也是有一些需要注意的地方:
1) 评估评分卡的区分能力时,如果坏客户的定义不是那么严格,Gini系数对应代表的区分能力可能被夸大效果;
2) Gini对目标变量类别的定义比较敏感,比如账户的好坏。
所以要想Gini指标精确有效,那么目标变量Y的定义在评分卡开发初期是十分重要和严谨的步骤。
Gini系数的不同范围值对应的评分模型区分能力高低也不一样,行业内也没有一个绝对标准,小编经验认为:
针对评分卡集来说,申请评分卡集的通识标准:
1) Gini<0.3,模型不太能接受;
2) 0.3<=Gini<0.35,模型区分能力一般,模型有优化空间;
3) 0.35<=Gini<=0.5,模型区分能力比较满意;
4) Gini>0.5,Gini越高越有过拟的可能性;
行为评分卡集的通史标准:
1) Gini可能会超过0.8;
2) Gini<0.6,可能模型有问题。
当然了,对于单一评分卡模型的话,Gini的接受浮动就比较大了,比如某一特定场景开发出的申请评分卡,因为IV高于0.1的变量本身就很少了,这个时候的Gini标准就不再需要采用通识标准了。
KS指标
在金融风控领域中,常用于衡量模型对正负样本的区分度。通常来说,值越大,模型区分正负样本的能力越强,一般0.3以上,说明模型的效果比较好(申请评分卡)。
其定义如下:
KS=Max{|retain_bad_pct - retain_good_pct|}
AUC指标
说起AUC就不得不提ROC曲线。
ROC 曲线,显示分类模型在所有分类阈值下的性能的图表。该曲线绘制了两个参数: TP Rate和FP Rate。
AUC (ROC曲线下的面积),AUC测量整个ROC曲线下的整个二维区域。
-
AUC的值范围为0到1。
-
预测错误100% 的模型的AUC为0.0
-
具有100% 个正确预测的模型的AUC为1.0。
通常来说,AUC的值位于[0.5,1]上,在AUC>0.5的情况下,AUC的值越接近1,就说明其诊断的效果越好。
一般的,一个诊断方法的AUC在(0.5,0.7]时说明其有较低的准确性,AUC在(0.7,0.9]是就说起有一定的准确性,AUC的值大于0.9时就有较高的准确性。
当诊断方法的AUC=0.5时,其没有诊断价值,若AUC<0.5是不符合实际情况的,一般极少出现。其实说白了AUC就是一个评价一个分类器好坏的指标。
标签:AUC,Gini,评分,模型,风控,指标,PSI,评估 From: https://blog.csdn.net/R418520/article/details/141830365