一、互联网业务风控的业务范围
风控其实是一个很大的概念,"风控入门指南"系列文章,关注互联网业务风控。
具体包括,账号风控、营销反作弊、支付风控、广告反作弊、内容风控等场景的风险管控。
各场景风险项如下:
风险场景 | 风险类型 |
账号风控 | 批量注册、晒号、养号、撞库 |
营销反作弊 | 薅羊毛 |
支付风控 | 盗卡、盗刷、洗钱 |
广告反作弊 | 展示作弊、刷量作弊、归因作弊 |
内容风控 | 涉恐、涉政、垃圾消息等 |
二、风控的目标是什么
马克思曾经说过:"一旦有适当的利润,资本就胆大起来。如果有10%的利润,它就保证到处被使用;有20%的利润,它就活跃起来;有50%的利润,它就铤而走险;为了100%的利润,它就敢践踏一切人间法律;有300%的利润,它就敢犯任何罪行,甚至冒绞首的危险。"
黑产的利润远不止300%,只要有足够的利润,黑产就会像野草一样,春风吹又生。所以,风控的目标从来不是消灭黑产,我们要做的,是不断提高黑产作恶的成本,当成本>收益,黑产自然会放弃或者转换目标。 杀头的买卖有人干,亏本的买卖没人做,是永恒的真理。
三、风险量化:寻找你的北极星指标
就像我们一定要有一个损失函数,才能度量贪婪搜索是否在往正确的方向优化,风控也需要有北极星指标来指引策略优化。
If you can't measure it, you can't improve it!
准召类指标
假设目标是找到坏人,即正样本是坏人。
传统机器学习衡量二分类模型的指标有准确率(Accuracy)、精度(Precision)、召回率(Recall), 计算公式如下:
预测坏人 | 预测好人 | |
实际坏人 | A | B |
实际好人 | C | D |
准确率(Accuracy)= (A+D)/(A+B+C+D),即预测结果正确的比例。
精 度(Precision) = A/(A+C) ,即预测的100个坏人里面,到底有多少是真坏人。
召回率(Recall) = A/(A+B) ,即实际有100个坏人的话,你覆盖了多少。
精度和准确率工业界经常混用,平时一定要问清楚具体计算方式。
以上指标,对于不平衡类问题会有失真的问题:
比如在薅羊毛场景,经常90%以上流量是坏人利用自动机产生的。
预测坏人 | 预测好人 | |
实际坏人 | 90 | 0 |
实际好人 | 10 | 0 |
当模型全部预测为坏人的时候,以上指标依然都大于90%。 准确率(Accuracy)= 90% 精 度(Precision) =90% 召回率(Recall) =100%
实际风控业务上,我们主要实用基于混淆矩阵调整以后的误伤和覆盖指标:
好人误伤率 = D/(C+D) = 0% ,即好人里面实际误伤了多少。
恶意覆盖率 = A/(A+B) = 90% ,即坏人里面实际打击到了多少。
一般情况,优化方向是在保证好人误伤率<××%的前提下,提升恶意覆盖率。
准召类指标存在一些缺点:
-
好人样本或者坏人样本有时间非常难获取,造成难以评估或者评估方法无法令人信服。
-
指标和业务缺乏关联,适用于平台型风控,不适合业务部门风控。
提升度指标
这里的提升度并不是指关联规则挖掘里面的提升度(Lift),而是指策略加入前后的效果提升类指标。
-
比如注册场景,打击之前抽样好人占比20%,打击以后抽样好人占比90%,那好人提升度可以是 90%/20% = 4.5,即好人占比基于大盘提升了4.5倍。
-
比如广告场景,放过部分的转化率5%,打击部分的转化率1%,证明策略有效的提升度指标可以是 5%/1% = 5,即我们打击的坏人流量和好人流量在转化率上有5倍的区分度。
提升度指标是业务初期的好选择之一,只要找到的流量和大盘区分度足够明显,就可以用类似指标证明风控价值。
资损
止损金额在营销反作弊、支付反作弊等涉及到钱的场景是非常好的虚荣指标。 好处是:
-
指标易于理解:方便和业务经营指标联系起来,争取业务领导的关注。
-
指标计算简单:只用对拦截进行汇总即可。相比准召的人工抽样等方法,计算快,人力投入少。
四、写在最后
"书足以记名姓而已。剑一人敌,不足学,学万人敌。"
高级的风控,在我看来,应该是能看清楚行业大势的。
-
这个行业价值多少,黑产获利空间多少,推算黑产从业人员有多少。
-
产业链怎样配合,有哪些自动化工具,变动趋势是怎样的。
-
为什么我们要在这个方向是投入人力,不投入风险敞口有多少。
从更高的角度去看行业变化、利益变化才是高级的风控。
标签:指标,好人,指标体系,坏人,黑产,90%,风控,揭秘 From: https://blog.csdn.net/qq_25243447/article/details/136665585