ROC，auroc, auprc 精准率-召回率曲线下的面积 (AUPRC)

标签：样本阈值 auprc ROC 分类器 TPR FPR auroc

ROC曲线：接受者操作特征曲线（receiver operating characteristic curve）。
ROC空间将伪阳性率（FPR）定义为 X 轴，真阳性率（TPR）定义为 Y 轴。
从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上／右下两个区域，在这条线的以上的点代表了一个好的分类结果（胜过随机分类），而在这条线以下的点代表了差的分类结果（劣于随机分类）。
完美的预测是一个在左上角的点，在ROC空间座标 (0,1)点，X=0 代表着没有伪阳性，Y=1 代表着没有伪阴性（所有的阳性都是真阳性）；也就是说，不管分类器输出结果是阳性或阴性，都是100%正确。一个随机的预测会得到位于从 (0, 0) 到 (1, 1) 对角线（也叫无识别率线）上的一个点；最直观的随机预测的例子就是抛硬币。

我们希望TP真阳性尽可能大，而FP伪阳性尽可能小，因此曲线越靠近左上角效果越好。

链接：

https://blog.csdn.net/didi_ya/article/details/125141195

https://www.cnblogs.com/emanlee/archive/2011/05/29/2062280.html

=========================================

auroc,

AUROC（Area Under ROC，ROC曲线下面积）

ROC本质上就是在设定某一阈值之后，计算出该阈值对应的TPR & FPR，便可以绘制出ROC上对应的一个点，当设定若干个阈值之后，便可以连成ROC曲线，因此可以想见，当所采样的阈值越多，ROC Curve越平滑。

横轴：FPR（False positive rate，假阳性率）
纵轴：TPR （true positive rage，真阳性率）

AUROC（Area Under the Receiver Operating Characteristic curve，接受者操作特征曲线下面积，即ROC曲线下面积）
AUROC通过接受者操作特征曲线（receiver operating characteristic curve）与坐标轴（下边横轴，右侧纵轴）之间的⾯积（上图青色阴影）⼤⼩来反应分类器的性能，其意义在于：
因为是在1x1的方格里求面积，AUROC必在0~1之间。
若随机抽取一个阳性样本和一个阴性样本，分类器正确判断阳性样本的值高于阴性样本之机率。
简单说：AUROC值越大的分类器，正确率越高。
从AUROC判断分类器（预测模型）优劣的标准：
    AUROC = 1，是完美分类器，采用这个预测模型时，存在至少一个阈值能得出完美预测。绝大多数预测的场合，不存在完美分类器；
    0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值；
    AUC = 0.5，跟随机猜测一样（例：丢硬币），模型没有预测价值；
    AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测；

其意义可以理解为均匀抽取的随机阳性样本（正样本）排名在均匀抽取的随机阴性样本（负样本）之前的期望。AUROC是⼀个介于0到1之间的数值，当AUROC值越接近于1时，表示分类器可以较好的分类正负样本。
链接：https://blog.csdn.net/didi_ya/article/details/125141195

在二分类问题中，我们可以得到一个样本为1的概率值，该概率值是一个0到1之间的数值，同时，我们也可以设定一个阈值，当概率值大于阈值时，则认为该样本为正样本，反之，则认为该样本为负样本。

我们可以设置多个阈值，每一个阈值下，都可以得到测试样本的测试结果，以及该阈值下的TPR与FPR，对于一个样本数为N的测试集，我们可以设置N+2个阈值，得到N+2组TPR与FPR值，将TPR作为x轴，FPR作为y轴，便可以将N个点放在坐标系中，将所有的点连接起来，便可以得到ROC曲线。

示例：有2个正样本A与B，其预测为正样本的概率分别为0.4,0.9，有两个负样本C与D，其预测为正样本的概率分别为0.2，0.5。

由于我们有四个样本,所以我们可以设置5个阈值，0，0.2，0.4，0.5，0.9，置信度大于阈值，则视为正样本

当阈值为0时，A，B,C,D 均预测为正样本，此时TPR为2/2 = 1，FPR为2/2 = 1;

当阈值为0.2时，A，B，D预测为正样本，C预测为负样本，TPR为2/2 = 1，FPR为1/2 = 0.5;

当阈值为0.4时，B，D预测为正样本，A，C预测为负样本，TPR为1/2 = 0.5，FPR为1/2 = 0.5;

当阈值为0.5时，B 预测为正样本，A，C，D预测为负样本，TPR为1/2 = 0.5，FPR为0/2 = 0;

当阈值为0.9时，A，B，C，D均预测为负样本，TPR为0/2 = 0，FPR为0/2 = 0;

我们将5组TPR与FPR画在坐标轴，就可以得到ROC曲线了，重复的可以看作一个点。

https://zhidao.baidu.com/question/1997518398384939147.html

=========================================

auprc

AUPR（Area Under PR）

1、什么是PR曲线？

横轴：TPR （true positive rage，真阳性率）
纵轴：Precision 查准率

也分别叫作
（1）查全率：说明你的模型或者方法可以预测出较多的数据
（2）查准率：说明所预测的样本的正确性较高

REF

https://blog.csdn.net/qm5132/article/details/100167711

标签：样本,阈值,auprc,ROC,分类器,TPR,FPR,auroc
From： https://www.cnblogs.com/emanlee/p/17694701.html

ROC，auroc, auprc 精准率-召回率曲线下的面积 (AUPRC)

AUPR（Area Under PR）

相关文章

赞助商

阅读排行