信贷时序数据与特征工程介绍 --求是汪
1. 常规统计特征
把客户行为按最小时间粒度统计完毕后,我们就会得到一个分布。接下来则是利用统计函数最大值(MAX)、最小值(MIN)、平均值(AVG)、标准差(STD)来描述以上分布特征。
但是,这些指标在统计时只能对给定的数据集合计算,没有考虑到时间序列变化信息。换言之,什么时间段在持续上升,什么时间段在持续下降,什么时间段断档形成空窗期,这些信息都被掩盖了。
2. 时间距离特征
用以刻画客户最远一次、最近一次或者某个特殊事件发生的时点。例如:
● 最近一次申请日距离观察点的日期差(天数)
● 最近一次取到最大值、最小值的事件时点距离观察点的日期差(天数)
● 最近一次逾期距离观察点的日期差(天数)
3. 行为波动特征
用以刻画客户某段连续时间内的行为变化特征。例如:
● 最长持续上升(或下降)的时间跨度(天数)。
● 最长睡眠期(天数)。即,客户多久没有活跃了?
● 连续行为窗口出现次数。
在信贷风控中,变化趋势是衡量风险非常重要的维度。我们喜欢稳定,但是风险天生具有易变性,当有变化的趋势就意味着风险,也意味着机遇。例如,当客户近期在行业内借款申请次数在上升时,我们就可以判断客户资金紧张,故而在到处借钱。那么,我们需要思考:
- 业务侧:客户是否因为我们的额度不够,无法满足其资金需求而跑到其他平台借款?出于余额增长的目标,我们能不能给客户提额呢?
- 风险侧:该客户的还款能力是否出现问题?我们给他放开额度后,我们能否承受风险?那么我们就需要给客户打一下风险分,判断客户风险。
为捕捉客户行为变化趋势,我们可以用一种简单的方法:最近N个月次数 / 最近M个月次数(N < M)。例如,多头变量中,该值越高,说明借款申请记录更为集中在近期。一般来说,近期行为对于识别短期欺诈风险更有用,远期行为对于识别长期信用风险更有用。
4. 集中度特征
用以刻画客户行为的偏好程度。如果说时间维度是纵向视角,那么集中度特征则是横截面视角。通常以比例特征形式出现。例如:
● 一天内集中于哪个时间段活动?
● 借款机构中集中于哪些机构?
● 借款金额倾向于什么数目(例如1K以内,1K-5K,5K以上)?
● 购买的商品内集中于买什么品类?