评价指标
首先在介绍二分类的评价指标之前,先介绍几个常见概念用于计算其中的accuracy,precision,recall,F1
TP、FP、FN、TN
TP:True Positive,FP:False Positive,FN:False Negative,TN:True Negative
后面的p或是n分别代表预测情况,即预测是正样本还是负样本;然后前者t或是f则代表预测值正确与否。
TP:分类器预测结果为正样本,实际预测正确,是正样本。(即正样本被正确识别的数量)
FP:分类器预测结果为正样本,实际预测错误,是负样本。(即误报的负样本数量)
FN:分类器预测结果是负样本,实际预测错误,是正样本。(即漏报的正样本的数量)
TN:分类器预测结果是负样本,实际预测正确,是负样本。(即负样本被正确识别的数量)
常见的评价指标是由上述构成
Precision精确率
P指标表示预测正确的正样本的准确率,预测为真但是实际为假的样本越少,precision的值越大。
\[P=\frac{TP}{TP+FP} \]Recall召回率
R指标表示预测正确的样本的覆盖率,TP+FN的数量实际上为Ground Truth的数量,recall的值越大,漏检的数量就越小。
\[R=\frac{TP}{TP+FN} \]F1值
精确率越高越好,召回率也越高越好。
\[F1=2×\frac{P×R}{P+R} \]Accuracy精确率
Accuracy指标表示预测正确的样本比例。
\[Accuracy=\frac{TP+TN}{样本总数} \]另外还有一些额外的指标:二分类常用area under curve(AUC),多分类常用macro F1和micro F1。
Area Under Curve(AUC)
ROC曲线(Receiver Operator Characteristic Curve,译为接收者操作特性曲线)。ROC曲线以FPR为X轴;TPR为Y轴,如下图所示。
AUC被定义为ROC曲线下与坐标轴围成的面积,这个面积的数值是不会大于1,AUC的取值范围在0.5和1之间。AUC是一种衡量机器学习模型分类性能的重要且非常常用的指标,其只能用于二分类的情况。AUC的本质含义反映的是对于任意一对正负例样本,模型将正样本预测为正例的可能性大于将负例预测为正例的可能性的概率。AUC越接近1,分类器性能越好。macro F1宏平均
借助上图,可以得到高、中、低、无档位的F1分数分别是0.6、0.5、0.53、0.4。然后对各F1分数求平均得到,macro F1 = (0.6 + 0.5 + 0.53 + 0.4) / 4 = 0.51,macro F1受各类的影响是平等的,不会被大的类别主导。即先求出各个类别的p、r、f1值,再得到其算术平均值。micro F1微平均
微平均(Micro- average)。是计算数据集总体的TP、FP、TN、FN (类别 1.2. ....对应的TP、FP、TN、FN样例个数都分别加起来,同样地,这些样例个数计算方式是将多分类转为n个二分类,(即one-vs-all),建立全局混淆矩阵,然后计算相应指标。
\[micro\_P=\frac{\sum_{i=1}^{n} TP_{i}}{\sum_{i=1}^{n} TP_{i}+\sum_{i=1}^{n} FP_{i}} \]\[micro\_R=\frac{\sum_{i=1}^{n} TP_{i}}{\sum_{i=1}^{n} TP_{i}+\sum_{i=1}^{n} FN_{i}} \]\[micro\_F1=\frac{2×micro\_P×micro\_R}{micro\_P+micro\_R} \] 标签:F1,预测,样本,离线,TP,指标,micro,评价,FN From: https://www.cnblogs.com/charlton-99ing/p/17521742.html