机器学习模型评估指标

标签：plt 机器模型 train test import model 评估 sklearn

模型的评估指标是衡量一个模型应用于对应任务的契合程度，常见的指标有：

准确率（Accuracy）: 正确预测的样本数占总样本数的比例。适用于类别分布均衡的数据集。
精确率（Precision）: 在所有被预测为正类的样本中，实际为正类的比例。高精确率意味着较少的假正例。
召回率（Recall）: 在所有实际为正类的样本中，被正确预测为正类的比例。高召回率意味着较少的假负例。
F1分数（F1 Score）: 精确率和召回率的调和平均，是两者之间的平衡指标。F1分数在类别不平衡时特别有用。
AUC-ROC曲线下面积（AUC）: ROC曲线下的面积，衡量模型对正负样本的区分能力。AUC值越高，模型性能越好。
平均精度（Average Precision）: 每个类别的精确率的平均值，特别用于多标签分类问题。
平均召回率（Average Recall）: 每个类别的召回率的平均值，同样适用于多标签分类。
混淆矩阵（Confusion Matrix）: 一个表格，显示了实际类别与预测类别之间的关系，可以用来计算上述指标。
平均F1分数（Average F1 Score）: 对每个类别计算F1分数后取平均值。
马修距离（Mean Absolute Error, MAE）: 预测值与真实值之间差的绝对值的平均。
均方误差（Mean Square Error, MSE）: 预测值与真实值之间差的平方的平均值。
均方根误差（Root Mean Square Error, RMSE）: MSE的平方根，提供了误差的尺度化度量。
对数平均绝对误差（Mean Absolute Percentage Error, MAPE）: 预测值与真实值之间差的绝对值的百分比的平均值。
洛斯损失（Log Loss）: 常用于逻辑回归模型，衡量预测概率与实际标签之间的差异。
杰卡指数（Jaccard Index）: 1减去预测类别与真实类别的交集与并集的比例，用于衡量两个集合的相似度。

结合场景来看待这些指标：

分类问题（Classification）:
- 类别不平衡（Class Imbalance）: 在这种情况下，召回率（Recall）和F1分数（F1 Score）通常比准确率（Accuracy）更能反映模型性能，因为准确率可能会因为多数类而产生误导。
- 多类别分类（Multi-class Classification）: 精确率（Precision）、召回率（Recall）和F1分数（F1 Score）可以为每个类别单独计算，然后平均得到宏平均（Macro-average）或微平均（Micro-average）指标。
回归问题（Regression）:
- 均方误差（Mean Squared Error, MSE）和均方根误差（Root Mean Squared Error, RMSE）是衡量预测值与实际值之间差异的常用指标。
- 平均绝对误差（Mean Absolute Error, MAE）提供了预测误差的平均绝对值，对异常值不敏感。
异常检测:
- 查准率（Precision）和召回率（Recall）在这里同样重要，尤其是在异常类别较少的情况下。
排名问题:
- 平均精度（Mean Average Precision, MAP）是一个关键指标，它衡量的是模型在整个排名列表中保持高精确度的能力。
多标签分类:
- 每个标签的精确率和召回率可以单独计算，然后根据标签的分布进行加权平均。
多输出问题:
- 对于每个输出变量，可以单独计算MSE、RMSE或准确率等指标。

1.准确率

即希望11（模型正确预测正例）、10（模型正确预测负例）的占比更高

基本原理

准确率是将预测正确的样本数量与总样本数量之比，它衡量的是模型在整个数据集上的表现。然而，当数据集不平衡（即某一类样本数量明显多于其他类别）时，准确率可能不是一个很好的评估指标，因为即使模型预测所有样本都属于多数类别，也能获得相对较高的准确率。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# 生成模拟数据集
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 在测试集上做预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)

# 绘制评估指标
plt.imshow(conf_matrix, cmap='binary', interpolation='None')
plt.colorbar()
plt.xticks([0, 1])
plt.yticks([0, 1])
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix')
plt.show()

2.精确率

基本原理

精确率的核心思想是衡量模型在所有预测为正类别的样本中，真正为正类别的样本所占的比例。这个指标对于那些需要准确识别正例的任务尤为重要，比如医学诊断中的疾病检测。高精确率表示模型在识别正例方面有很好的表现。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import precision_score, confusion_matrix

# 生成模拟数据集
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 在测试集上做预测
y_pred = model.predict(X_test)

# 计算精确率
precision = precision_score(y_test, y_pred)
print("Precision:", precision)

# 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)

# 绘制评估指标
plt.imshow(conf_matrix, cmap='binary', interpolation='None')
plt.colorbar()
plt.xticks([0, 1])
plt.yticks([0, 1])
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix')
plt.show()

3.召回率

基本原理

召回率的核心思想是衡量模型在识别正例方面的表现。它强调了模型对于实际为正类别的样本的识别能力，对于那些需要尽量避免漏诊的任务，比如疾病检测，召回率是一个非常重要的评估指标。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import recall_score, confusion_matrix

# 生成模拟数据集
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 在测试集上做预测
y_pred = model.predict(X_test)

# 计算召回率
recall = recall_score(y_test, y_pred)
print("Recall:", recall)

# 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)

# 绘制评估指标
plt.imshow(conf_matrix, cmap='binary', interpolation='None')
plt.colorbar()
plt.xticks([0, 1])
plt.yticks([0, 1])
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix')
plt.show()

4.F1分数

基本原理

F1分数综合考虑了模型的精确率和召回率，因此可以在一定程度上弥补精确率和召回率单独使用时的不足。F1分数越高，表示模型在识别和预测正类别方面的综合表现越好。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, confusion_matrix

# 生成模拟数据集
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 在测试集上做预测
y_pred = model.predict(X_test)

# 计算F1分数
f1 = f1_score(y_test, y_pred)
print("F1 Score:", f1)

# 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)

# 绘制评估指标
plt.imshow(conf_matrix, cmap='binary', interpolation='None')
plt.colorbar()
plt.xticks([0, 1])
plt.yticks([0, 1])
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix')

plt.show()

5.ROC曲线和AUC

基本原理

ROC曲线基于真正例率和假正例率，它展示了在不同分类阈值下，模型在识别正例和负例方面的性能。ROC曲线上的点越靠近左上角，表示模型性能越好。AUC是ROC曲线下的面积，它等于ROC曲线与横轴之间的面积，可以用来比较不同模型的性能，AUC越大表示模型性能越好。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc

# 生成模拟数据集
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 在测试集上做预测
y_pred_proba = model.predict_proba(X_test)[:, 1]

# 计算ROC曲线和AUC
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)
roc_auc = auc(fpr, tpr)
print("AUC:", roc_auc)

# 绘制ROC曲线
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic Curve')
plt.legend(loc="lower right")
plt.show()

6.混淆矩阵

基本原理

混淆矩阵用于描述模型在不同类别上的预测结果，帮助评估模型的分类准确性和错误情况。通过混淆矩阵，可以计算出模型的精确率、召回率、F1分数等评估指标，从而更全面地评估模型的性能。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

# 生成模拟数据集
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 在测试集上做预测
y_pred = model.predict(X_test)

# 计算混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)

# 绘制混淆矩阵
plt.imshow(conf_matrix, cmap='binary', interpolation='None')
plt.colorbar()
plt.xticks([0, 1])
plt.yticks([0, 1])
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix')
plt.show()

7.均方误差

基本原理

均方误差衡量了模型的预测值与真实值之间的平均偏差的平方。当模型的预测值与真实值之间的偏差较大时，MSE会增大；而当偏差较小时，MSE会减小。因此，MSE越小表示模型对数据的拟合程度越好。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 生成模拟数据集
X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 在测试集上做预测
y_pred = model.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# 绘制评估指标
plt.scatter(X_test, y_test, color='black', label='Actual')
plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Predicted')
plt.title('Actual vs Predicted')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

8.平均绝对误差

基本原理

平均绝对误差衡量了模型的预测值与真实值之间的平均绝对偏差。当模型的预测值与真实值之间的偏差较大时，MAE会增大；而当偏差较小时，MAE会减小。因此，MAE越小表示模型对数据的拟合程度越好。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

# 生成模拟数据集
X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 在测试集上做预测
y_pred = model.predict(X_test)

# 计算平均绝对误差
mae = mean_absolute_error(y_test, y_pred)
print("Mean Absolute Error:", mae)

# 绘制评估指标
plt.scatter(X_test, y_test, color='black', label='Actual')
plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Predicted')
plt.title('Actual vs Predicted')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

9.对数损失

基本原理

对数损失衡量了模型的预测概率分布与真实标签之间的差异。当模型的预测概率分布与真实标签完全一致时，对数损失为0；当二者差异较大时，对数损失增大。因此，对数损失越小表示模型性能越好。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import log_loss

# 生成模拟数据集
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 在测试集上做预测
y_pred_proba = model.predict_proba(X_test)

# 计算对数损失
logloss = log_loss(y_test, y_pred_proba)
print("Log Loss:", logloss)

# 绘制评估指标
thresholds = np.linspace(0.01, 0.99, 100)
logloss_values = []
for threshold in thresholds:
    y_pred_threshold = (y_pred_proba[:, 1] > threshold).astype(int)
    logloss_values.append(log_loss(y_test, y_pred_threshold))

plt.plot(thresholds, logloss_values)
plt.xlabel('Threshold')
plt.ylabel('Log Loss')
plt.title('Log Loss vs Threshold')
plt.show()

10.R平方

基本原理

R平方衡量了模型对数据的拟合程度，其取值范围在0到1之间。当模型对数据的拟合程度越好时，R平方越接近1；当模型对数据的拟合程度较差时，R平方越接近0。当模型的拟合程度与随机平均水平相当时，R平方可能为负。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# 生成模拟数据集
X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 在测试集上做预测
y_pred = model.predict(X_test)

# 计算R平方
r2 = r2_score(y_test, y_pred)
print("R-squared:", r2)

# 绘制评估指标
plt.scatter(X_test, y_test, color='black', label='Actual')
plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Predicted')
plt.title('Actual vs Predicted')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

11.交叉验证分数

基本原理

交叉验证分数的原理是通过多次训练和测试模型，利用每次测试集上的性能指标来评估模型的泛化能力。通过多次重复这个过程并计算平均值，可以得到更可靠的性能评估结果。

核心点

代码例子

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 初始化逻辑回归模型
model = LogisticRegression()

# 计算交叉验证分数
cv_scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')

# 打印交叉验证分数
print("Cross-Validation Scores:", cv_scores)
print("Mean Cross-Validation Score:", np.mean(cv_scores))

# 绘制评估指标
plt.plot(range(1, 6), cv_scores, marker='o')
plt.xlabel('Fold')
plt.ylabel('Accuracy')
plt.title('Cross-Validation Scores')
plt.show()

标签：plt,机器,模型,train,test,import,model,评估,sklearn
From： https://blog.csdn.net/yuange1666/article/details/145019891

机器学习模型评估指标

1.准确率

基本原理

核心点

代码例子

2.精确率

基本原理

核心点

代码例子

3.召回率

基本原理

核心点

代码例子

4.F1分数

基本原理

核心点

代码例子

5.ROC曲线和AUC

基本原理

核心点

代码例子

6.混淆矩阵

基本原理

核心点

代码例子

7.均方误差

基本原理

核心点

代码例子

8.平均绝对误差

基本原理

核心点

代码例子

9.对数损失

基本原理

核心点

代码例子

10.R平方

基本原理

核心点

代码例子

11.交叉验证分数

基本原理

核心点

代码例子

相关文章

赞助商

阅读排行