最优阈值的确定方法（详细解释，通俗易懂）

时间：2024-06-08 20:01:41浏览次数：35

上一篇文章我们提到，查全率和查准率是一对矛盾的度量，那在实际的应用中怎么选取一个合适的值去平衡这两个度量，这里我们介绍三种方法，这个值就叫做最优阈值。

1.方法一：选择平衡点

我们看下图

如图一中所示，Threshold就是阈值，Precision就是查准率，Recall就是查全率，我们看到，阈值为零的时候查准率和查全率相等。第二个图展示的是在不同机器学习模型下的查准率和查全率的一个变换，模型不同，平衡点的位置也往往不相同，这个方法没什么难理解的，就是选择两个值相等的点作为最优阈值。

2.方法二： $F_{1}$ 度量

先看公式：

$\frac{1}{F_{1}}=\frac{1}{2}(\frac{1}{R}+\frac{1}{P})$

$F_{1}=\frac{2PR}{P+R}$

$F_{1}$ 度量其实就是查全率和查准率的一个调和平均，为啥需要弄这个东西当作最优阈值的确定方法呢？我们从以下几个方面来说明：

平衡性： $F_{1}$ 度量在查全率和查准率之间取得了一个平衡。假如说查全率和查准率这俩度量相差较大时， $F_{1}$ 度量会给出一个较低的值，这迫使模型在两个指标上都要表现良好。
对不均衡数据敏感：在正负样本不均衡的情况下， $F_{1}$ 度量比精度更能反映模型的性能。比如说，在二分类问题中，大多数样本为负例，即使模型简单地预测所有样本为负例，精度也可能很高（因为正例很少嘛），但这样的模型实际上并没有学到有用的信息。而 $F_{1}$ 度量会给出较低的值，因为它考虑了模型对少数类（正例）的预测能力。
单一指标： $F_{1}$ 度量提供了一个单一的指标来评价模型性能，这使得不同模型之间的比较更加直观。
适用性：在信息检索和自然语言处理等领域， $F_{1}$ 度量是一个常用的性能评价指标，尤其是在需要同时考虑预测的查准率和查全率的场景中。

但是， $F_{1}$ 度量是平衡两个度量的，那假如说我们现在只重视其中一个度量，那该怎么办嘞？这个时候就要引出我们的加权 $F_{1}$ 度量。

2.方法三：加权 $F_{1}$ 度量

先看公式：

$\frac{1}{F_{\beta }}=\frac{1}{1+\beta ^{2}}(\frac{1}{R}+\frac{\beta ^{2}}{P})$

$F_{\beta }=\frac{(1+\beta ^{2})PR}{\beta ^{2}P+R}$

这个其实也很好理解，举个例子，假如在商品推荐系统中，为了尽可能少打扰用户，更希望推荐内容确是用户感兴趣的，此时查准率更重要；而在逃犯信息检索系统中，更希望尽可能少漏掉逃犯，此时查全率更重要。 $F_{\beta }$ 能让我们表达出对查全率和查准率的不同偏好。

其中 $\beta > 1$ 时查全率有更大影响； $\beta < 1$ 时查准率有更大影响。 $\beta = 1$ 时就是 $F_{1}$ 啦。当然，这里面的 $\beta$ 都是大于零哦。

ok，这篇文章就分享到这里啦，欢迎小伙伴们批评指正~（图片知识来源于西瓜书，网络）

标签：阈值,模型,通俗易懂,查全率,最优,查准率,方法,度量
From： https://blog.csdn.net/qq_64411728/article/details/139548948

前端使用 Konva 实现可视化设计器（13）- 折线 - 最优路径应用【思路篇】
这一章把直线连接改为折线连接，沿用原来连接点的关系信息。关于折线的计算，使用的是开源的AStar算法进行路径规划，启发方式为曼哈顿距离，且不允许对角线移动。请大家动动小手，给我一个免费的Star吧~大家如果发现了Bug，欢迎来提Issue哟~github源码gitee源码示例地址灵感......
m基于PSO粒子群优化的LDPC码NMS译码算法最优归一化参数计算和误码率matlab仿真
1.算法仿真效果matlab2022a仿真结果如下： 2.算法涉及理论知识概要低密度奇偶校验码(Low-DensityParity-CheckCode,LDPC码)因其优越的纠错性能和近似香农极限的潜力，在现代通信系统中扮演着重要角色。归一化最小和(NormalizedMin-Sum,NMS)译码......
【机器学习】K-means聚类的最优k值的选取（含代码示例）
......
SpaceX 首席火箭着陆工程师 MIT论文详解：非凸软着陆最优控制问题的控制边界和指向约束
上一篇blog翻译了LarsBlackmore(LarsBlackmoreisprincipalrocketlandingengineeratSpaceX)的文章，SpaceX使用CVXGEN生成定制飞行代码,实现超高速机载凸优化。利用地形相对导航实现了数十米量级的导航精度,着陆器在着陆过程中成像行星表面并将特征与机载地图匹配......
C语言 | 字符串函数（第二篇）【全网最详细，通俗易懂，必收藏】
字符串函数（第二篇）一、strncpy1、strncpy的使用2、strncpy的模拟实现二、strncat1、strncat的使用2、strncat的模拟实现三、strncmp1、strncmp的使用2、strncmp的模拟实现四、strstr1、strstr的使用2、strstr的模拟实现一、strncpy1、strncpy的使用char*strnc......
成员推理攻击（Membership Inference Attacks Against Machine Learning Models）通俗易懂
成员推理攻击是一种面向AI模型的数据隐私窃取，攻击者以判断==数据是否来源于AI模型的训练集==为目标，本质上是对未知来源的数据进行==二分类==，给出成员数据或者非成员数据的判定。攻击者训练一个二分类器，该分类器将==目标分类器==预测的数据样本的置信度分数向量作为输入，预测该......
最大似然估计的求解步骤（详细解释，通俗易懂）
关于最大似然估计的定义我已经分享过啦，小伙伴们可以通过下面的链接看看什么是最大似然估计？1.求解步骤今天我们来说一下它的求解步骤（这里的求解过程是以离散型随机变量为例，连续型随机变量同理）。在上文中我们知道，离散型随机变量的似然函数为......
【无人机】无人机（UAV）在无线网络的最优放置问题研究【高效本地地图搜索算法】（Matlab代
......
基于改进模拟退火（HDSA）优化无人机紧急着陆时的轨迹最优研究（Matlab代码实现）
......
路过的朋友，欢迎来看看通俗易懂版本的Nacos
一、什么是Nacos？一个更易于构建云原生应用的动态服务发现、服务配置和服务管理平台。 Nacos的关键特性：二、注册中心演变及其设计思想1、RestTemplate调用远程服务如果此时，服务端接口接口名或参数或请求方式更改了，那么就得同步修改此restTemplate方法，感觉很麻烦。......

最优阈值的确定方法（详细解释，通俗易懂）

1.方法一：选择平衡点

2.方法二： $F_{1}$ 度量

2.方法三：加权 $F_{1}$ 度量

相关文章

赞助商

阅读排行

最优阈值的确定方法（详细解释，通俗易懂）

1.方法一：选择平衡点

2.方法二： 度量

2.方法三：加权 度量

相关文章

赞助商

阅读排行

2.方法二： $F_{1}$ 度量

2.方法三：加权 $F_{1}$ 度量