在机器学习中,模型评估有很多不同的指标,具体的选择通常取决于你解决的问题的性质(例如分类、回归等)以及你关心的特定性能方面。以下是一些常见的模型评估指标:
分类问题指标:
在二分类问题中,"正类别"通常指的是模型预测为正例的类别。在一个二分类问题中,我们通常将其中一个类别标记为正例(Positive),而将另一个类别标记为负例(Negative)
-
True Positives (TP,真正例):
- 意义:模型正确地预测为正例的样本数量。
- 定义:这是属于正类别的实际样本,被模型正确地预测为正类别的数量。
-
False Positives (FP,假正例):
- 意义:模型错误地预测为正例的样本数量。
- 定义:这是属于负类别的实际样本,被模型错误地预测为正类别的数量。
准确度(Accuracy)
分类正确的样本数占总样本数的比例
精确度(Precision)
在模型预测为正例的样本中,有多少是真正的正例
召回率(Recall)
在所有实际正例中,模型成功预测为正例的比例
F1 分数(F1 Score)
F1 分数(F1 Score)是一个综合考虑精确度(Precision)和召回率(Recall)的评估指标,通常用于度量二分类模型的性能。它是精确度和召回率的调和平均数
回归问题指标:
-
均方误差(Mean Squared Error,MSE): 预测值与实际值之差的平方的平均值。
-
平均绝对误差(Mean Absolute Error,MAE): 预测值与实际值之差的绝对值的平均值。
-
R平方(R-squared): 衡量模型对目标变量方差的解释程度,取值范围为0到1,越接近1表示模型拟合得越好。
聚类问题指标:
-
轮廓系数(Silhouette Coefficient): 衡量一个样本与其簇内点的相似度与其他簇中的点的相似度之间的差异。
-
互信息(Mutual Information): 衡量两个集合之间的相似度,对于聚类问题,用于比较真实类别与聚类结果的相似度。