【机器学习】模型训练结果衡量指标准确率acc、精确率pre、召回率recall

标签：acc pre recall average 样本 score 标签 true pred

(49条消息) 机器学习中准确率、精确率、召回率、误报率、漏报率、F1-Score、AP&mAP、AUC、MAE、MAPE、MSE、RMSE、R-Squared等指标的定义和说明_liveshow021_jxb的博客-CSDN博客_命中率和召回率

名称解释

1、真实值actual value和预测值predicted value

这两者就是字面的意思，actual value是指真实记录的已发生的测量结果值，而predicted value是指对未发生的预测值。这里的值既可以是数值型，也可以是类别型。

2、真True、假False

这两个表示的是真实值与预测值之间是否吻合，true表示的是预测值与真实值一致，而false表示的是预测值与真实值不一致。

3、阳性Positive（正）、阴性Negative（负）

首先这里讨论的positive和negative不代表性别的取向，同时正和负也不代表正确或者错误。positive指条件或者事物存在，而negative指条件或者事物不存在。例如异常检测领域阳性positive代表存在异常，阴性negative代表不存在异常；如健康领域阳性positive代表检测存在病毒或者疾病，阴性negative代表检测结果是健康的。再如电子商务领域阳性positive代表点击或者成交，阴性negative代表未点击或者未成交。

二、分类指标的定义和说明

如上图，左上角是一个混合矩阵，首先将所有样本分为正样本P（标记为positive）和负样本N（标记为negative），正样本经过模型预测的结果依然为正的样本记为True Positive（TP），正样本被预测为负的样本称为False Positive（FP），同理，负样本被预测为负的样本被称为True negative（TN），负样本被预测为正的样本被称为False negative（FN），所以经过模型预测后有P = TP+FN，N = FP+TN；、

1、准（正）确率accuracy

反映分类器或者模型对整体样本判断正确的能力，即能将阳性（正）样本positive判定为positive和阴性（负）样本negative判定为negative的正确分类能力。值越大，性能performance越好

$ACC=\frac{TP+TN}{P+N}=\frac{TP+TN}{TP+FN+FP+TN}$

简单理解为，所有的样本中预测正确的比例。

这里注意，在负样本占绝对多数的场景中，不能单纯追求准确率，因为将所有样本都判定为负样本，这种情况下准确率也是非常高的。

使用sklearn计算准确率示例：

import numpy as np
from sklearn.metrics import accuracy_score

y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
print(accuracy_score(y_true, y_pred))  # 0.5
print(accuracy_score(y_true, y_pred, normalize=False))  # 2

# 在具有二元标签指示符的多标签分类案例中
print(accuracy_score(np.array([[0, 1], [1, 1]]), np.ones((2, 2))))  # 0.5

accuracy_score函数接口描述：

在多标签分类中，此函数计算子集精度：为样本预测的标签集必须完全匹配y_true（实际标签）中相应的标签集。

参数

y_true : 一维数组，或标签指示符 / 稀疏矩阵，实际（正确的）标签.
y_pred : 一维数组，或标签指示符 / 稀疏矩阵，分类器返回的预测标签.
normalize : 布尔值, 可选的(默认为True). 如果为False，返回分类正确的样本数量，否则，返回正确分类的得分.
sample_weight : 形状为[样本数量]的数组，可选. 样本权重.

返回值

score : 浮点型
如果normalize为True，返回正确分类的得分（浮点型），否则返回分类正确的样本数量（整型）.
当normalize为True时，最好的表现是score为1，当normalize为False时，最好的表现是score未样本数量.

2、精确率（Precision，查准率）

在预测为正类的样本中，实际上属于正类的样本所占的比例。在信息检索领域，精确率又被称为查准率。

注意：精确率和准确率不是一个东西，请大家注意不要搞混了！

$Precision=\frac{TP}{TP+FP}$

使用sklearn计算精确率：

from sklearn.metrics import precision_score

y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
print(precision_score(y_true, y_pred, average='macro'))  	# 0.2222222222222222
print(precision_score(y_true, y_pred, average='micro'))  	# 0.3333333333333333
print(precision_score(y_true, y_pred, average='weighted'))  # 0.2222222222222222
print(precision_score(y_true, y_pred, average=None))  		# [0.66666667 0.         0.        ]

函数描述：

精确率是 tp / (tp + fp)的比例，其中tp是真正性的数量，fp是假正性的数量. 精确率直观地可以说是分类器不将负样本标记为正样本的能力。精确率最好的值是1，最差的值是0。

参数：

y_true : 一维数组，或标签指示符 / 稀疏矩阵，实际（正确的）标签.
y_pred : 一维数组，或标签指示符 / 稀疏矩阵，分类器返回的预测标签.
labels : 列表，可选值. 当average != binary时被包含的标签集合，如果average是None的话还包含它们的顺序. 在数据中存在的标签可以被排除，比如计算一个忽略多数负类的多类平均值时，数据中没有出现的标签会导致宏平均值（marco average）含有0个组件. 对于多标签的目标，标签是列索引. 默认情况下，y_true和y_pred中的所有标签按照排序后的顺序使用.
pos_label : 字符串或整型，默认为1. 如果average = binary并且数据是二进制时需要被报告的类. 若果数据是多类的或者多标签的，这将被忽略；设置labels=[pos_label]和average != binary就只会报告设置的特定标签的分数.
average : 字符串，可选值为[None, ‘binary’ (默认), ‘micro’, ‘macro’, ‘samples’, ‘weighted’]. 多类或者多标签目标需要这个参数. 如果为None，每个类别的分数将会返回. 否则，它决定了数据的平均值类型.
- binary: 仅报告由pos_label指定的类的结果. 这仅适用于目标（y_{true, pred}）是二进制的情况.
- micro: 通过计算总的真正性、假负性和假正性来全局计算指标.
- macro: 为每个标签计算指标，找到它们未加权的均值. 它不考虑标签数量不平衡的情况.
- weighted: 为每个标签计算指标，并通过各类占比找到它们的加权均值（每个标签的正例数）.它解决了’macro’的标签不平衡问题；它可以产生不在精确率和召回率之间的F-score.
- samples: 为每个实例计算指标，找到它们的均值（只在多标签分类的时候有意义，并且和函数accuracy_score不同）.
- sample_weight : 形状为[样本数量]的数组，可选参数. 样本权重.

返回值

precision : 浮点数(如果average不是None) 或浮点数数组, shape =[唯一标签的数量]
二分类中正类的精确率或者在多分类任务中每个类的精确率的加权平均.

关于micro和macro

Macro Average
宏平均是指在计算均值时使每个类别具有相同的权重，最后结果是每个类别的指标的算术平均值。
Micro Average
微平均是指计算多分类指标时赋予所有类别的每个样本相同的权重，将所有样本合在一起计算各个指标。
对比：
- 如果每个类别的样本数量差不多，那么宏平均和微平均没有太大差异
- 如果每个类别的样本数量差异很大，那么注重样本量多的类时使用微平均，注重样本量少的类时使用宏平均
- 如果微平均大大低于宏平均，那么检查样本量多的类来确定指标表现差的原因
- 如果宏平均大大低于微平均，那么检查样本量少的类来确定指标表现差的原因

3、召回率（Recall=TPR）

在所有正类样本中，被正确识别为正类别的比例是多少，通俗讲，识别出来的正类（预测的）占实际正类中的比例。

在信息检索领域，召回率又被查全率。

$Recall=\frac{TP}{TP+FN}$

精确率和召回率可以观察下图理解，他们的分子相同，但分母是不一样的。而且有时候是矛盾的，极端情况下，我们只搜索出了一个结果，且是准确的，那么Precision就是100%，但是Recall就很低；而如果我们把所有结果都返回，那么比如Recall是100%，但是Precision就会很低。因此在不同的场合中需要自己判断希望Precision比较高或是Recall比较高。如果是做实验研究，可以绘制Precision-Recall曲线来帮助分析。

使用sklearn计算召回率

from sklearn.metrics import recall_score

y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
print(recall_score(y_true, y_pred, average='macro'))  # 0.3333333333333333
print(recall_score(y_true, y_pred, average='micro'))  # 0.3333333333333333
print(recall_score(y_true, y_pred, average='weighted'))  # 0.3333333333333333
print(recall_score(y_true, y_pred, average=None))  # [1. 0. 0.]

函数参数与precision_score一样

函数说明：

召回率是比率tp / (tp + fn)，其中tp是真正性的数量，fn是假负性的数量. 召回率直观地说是分类器找到所有正样本的能力.
召回率最好的值是1，最差的值是0.

返回值：

recall : 浮点数(如果average不是None) 或者浮点数数组，shape = [唯一标签的数量]
二分类中正类的召回率或者多分类任务中每个类别召回率的加权平均值.

4、F1分数

F1 score是精确率和召回率的调和平均值，计算公式为：

Precision体现了模型对负样本的区分能力，Precision越高，模型对负样本的区分能力越强；Recall体现了模型对正样本的识别能力，Recall越高，模型对正样本的识别能力越强。F1 score是两者的综合，F1 score越高，说明模型越稳健。

使用sklearn计算F1分数：

from sklearn.metrics import f1_score

y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
print(f1_score(y_true, y_pred, average='macro'))  # 0.26666666666666666
print(f1_score(y_true, y_pred, average='micro'))  # 0.3333333333333333
print(f1_score(y_true, y_pred, average='weighted'))  # 0.26666666666666666
print(f1_score(y_true, y_pred, average=None))  # [0.8 0.  0. ]

函数参数同precision_score