上一篇文章我们提到,查全率和查准率是一对矛盾的度量,那在实际的应用中怎么选取一个合适的值去平衡这两个度量,这里我们介绍三种方法,这个值就叫做最优阈值。
1.方法一:选择平衡点
我们看下图
如图一中所示,Threshold就是阈值,Precision就是查准率,Recall就是查全率,我们看到,阈值为零的时候查准率和查全率相等。第二个图展示的是在不同机器学习模型下的查准率和查全率的一个变换,模型不同,平衡点的位置也往往不相同,这个方法没什么难理解的,就是选择两个值相等的点作为最优阈值。
2.方法二: 度量
先看公式:
度量其实就是查全率和查准率的一个调和平均,为啥需要弄这个东西当作最优阈值的确定方法呢?我们从以下几个方面来说明:
-
平衡性:度量在查全率和查准率之间取得了一个平衡。假如说查全率和查准率这俩度量相差较大时,度量会给出一个较低的值,这迫使模型在两个指标上都要表现良好。
-
对不均衡数据敏感:在正负样本不均衡的情况下,度量比精度更能反映模型的性能。比如说,在二分类问题中,大多数样本为负例,即使模型简单地预测所有样本为负例,精度也可能很高(因为正例很少嘛),但这样的模型实际上并没有学到有用的信息。而度量会给出较低的值,因为它考虑了模型对少数类(正例)的预测能力。
-
单一指标:度量提供了一个单一的指标来评价模型性能,这使得不同模型之间的比较更加直观。
-
适用性:在信息检索和自然语言处理等领域,度量是一个常用的性能评价指标,尤其是在需要同时考虑预测的查准率和查全率的场景中。
但是,度量是平衡两个度量的,那假如说我们现在只重视其中一个度量,那该怎么办嘞?这个时候就要引出我们的加权度量。
2.方法三:加权 度量
先看公式:
这个其实也很好理解,举个例子,假如在商品推荐系统中,为了尽可能少打扰用户,更希望推荐内容确是用户感兴趣的,此时查准率更重要;而在逃犯信息检索系统中,更希望尽可能少漏掉逃犯 ,此时查全率更重要。能让我们表达出对查全率和查准率的不同偏好。
其中时查全率有更大影响; 时查准率有更大影响。时就是啦。当然,这里面的都是大于零哦。
ok,这篇文章就分享到这里啦,欢迎小伙伴们批评指正~(图片知识来源于西瓜书,网络)
标签:阈值,模型,通俗易懂,查全率,最优,查准率,方法,度量 From: https://blog.csdn.net/qq_64411728/article/details/139548948