切比雪夫大数定理
所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。
所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内
*****IV值会受分箱数量影响,因此即使是同样的样本,随着分箱数量改变,IV值也会发生改变,而AUC和KS是不变的。
从上面的结果可以看出,当分箱比较细的时候,对KS结果影响不大,但是如果分箱比较粗的话对KS会有一定的影响。
从IV值的公式中,易得变量的分组越多,IV值越大。但是分组分的太多,就会使得每个分组的数据量变少,导致细项分组的分布不稳定。
所以,我们在使用IV值筛选变量的时候,不能为了提高IV值一味地将分箱的数目提高,也要兼顾变量的业务含义和分布的稳定性。
风控指标
M0:正常资产,无逾期,有时也用C表示
M1:逾期一期,或逾期1-30天
M2:逾期两期,或逾期31-60天
M3:逾期三期,或逾期61-90天
M4:逾期四期,或逾期91-120天
M5:逾期五期,或逾期121-150天
M6:逾期六期,或逾期151-180天
M6+:逾期大于六期,或逾期大于180天。一般逾期大于180天,会进行坏账核销。
MOB的最大值指的是信贷产品期限
Eg:MOB0指的是资产放款至月底;MOB1指的是资产放款后第二个完整的月份;MOB2指的是资产放款后第三个完整的月份----如2019.11.13放款,
那么MOB0就为2019.11,MOB1为2019.12。
协方差和相关系数的关系与区别
协方差:
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
注:协方差大小,会受X,Y数据大小的影响,所以只能通过协方差的正负,来判断是正相关还是负相关,不能反映相关性的程度,所以相关系数就此诞生
相关系数:
公式翻译一下,就是XY的协方差除X的标准差和Y的标准差
所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。是用来研究变量之间线性相关程度的量,取值范围是[-1,1]。
psi 指标模型稳定性
0~0.1 好 没有变化或者很少变化
0.1~0.25 略不稳定 有变化建议监控后续变化
大于0.25 不稳定 发生大变化,进行特征项分析