在很多排序场景下,尤其是当前许多数据集正负样例都不太均衡;或者说因训练集过大,可能会对数据进行负采样等操作。这擦操作的前提是建立在AUC值不会受到正负样本比例的影响。看过很多博客也都在讨论:为什么AUC不会受正负样例不平衡的影响?为什么排序喜欢选择AUC作为评判指标。
一方面,从AUC定义来解释,它是比较“正样本预测分 & 负样本预分”数值相对大小关系。如若数据比例不同,模型预测分预测值绝对大小会因此而改变,但是相同分类器对于正负样本的区分能力是一定的。
另一方面,有人拿出实践证明:不采样数据集( 不对负样本采样),对比进行负采样数据集。计算出来的AUC不同,发现负样本越多(即不采样)的数据集AUC数值越高。csdn