一、定义
对于一个数据集的测试,一般会产生四种结果:TP、TN、FP、FN(T:true,表示正确;F:false,表示错误;P:positive;N:negative)
TP:true positive,正样本,预测为正样本;
TN:true negative,负样本,预测为负样本;
FP:false positive,负样本,预测为正样本;
FN:false negative,正样本,预测为负样本;
由上述概念可得到如下结果:
总样本数:TP+TN+FP+FN;
实际正/负样本数:TP+FN/TN+FP;
测量结果为正样本的数目:TP+FP;
测量结果为负样本的数目:TN+FN;
二、Recall(召回率)--实际为正样本的结果中测量正样本的比例(找的全【正样本】)
Recall用于评估算法对所有待检测目标的检测覆盖率,也就是计算实际正样本(TP+FN)中测量正样本中正确正样本(TP)的比例。其计算方式如下:
三、Precision(精确率)--测量为正样本的结果中实际正样本的比例(找的对【正样本】)
相比于Recall,Precision更好理解,用于评估算法对所有待测目标的正确率,也就是测量结果为正样本(TP+FP)中正确正样本(TP)的比例。其计算公式如下:
四、F1-Score(F-Measure,综合评价指标)
当Recall和Precision出现矛盾时,我们需要综合考虑他们,最常见的方法就是F1-Score,其实就是Precision和Recall的加权调和平均(P指代Precision,R指代Recall):
当a=1,可以得到:
此处的F1-Score,个人理解我们可以通过调整参数侧重于P或是R的作用,使得F1-Score对于算法的评估考量更加全面
五、Accuracy(准确率)--测量正确的样本占总样本的比例
相比于前两者,Accuracy是一种很直观的评价标准,但准确率越高不等价于算法越好(在正负样本失衡的情况下,准确率存在很大的缺陷--e.g., 互联网推广中,某些广告点击量很少,也就是测量均为负样本(不点计量)在99%以上也没有任何意义)。
单纯利用Accuracy评价一个算法模型是远远不够的。
以上内容仅记录本人学习,如有错误之处,敬请指正!谢谢!
六、参考
召回率(recall)和精度(precision)_THE@JOKER的博客-CSDN博客_recall召回率
机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线_nana-li-DevPress官方社区 (csdn.net)
标签:FP,F1,Recall,样本,Precision,TP,Score,FN From: https://www.cnblogs.com/hjxiamen/p/16748427.html