数据算法基础
1.准确率与置信区间
当评估一个算法的性能时,通常首先考虑准确率(Accuracy),这是一个衡量模型整体预测准确性的指标。
(1)准确率(Accuracy)
表示正确预测的比例,公式:准确率=预测正确的样本数量/预测总的样本数量
准确率并不能总能有效地反映模型的性能,尤其在类别不平衡的数据集中
为更准确评估模型在特定类别上的表现,使用精确率(Precision)和召回率(Recall)
- 混淆矩阵——是一个特定于二分类问题的表格,用于可视化模型性能
预测是类别A | 预测是类别B | |
实际是类别A | TP-True Positive | FN-False Negative |
实际是类别B | FP-False Positive | TN-True Negative |
真正例(TP):模型正确地预测正类(类别A)
假负例(FN):模型错误地将正类(类别A)预测为负类(类别B)
假正例(FP):模型错误地将负类(类别B)预测为正类(类别A)
真负例(TN):模型正确地预测负类(类别B)
(2)精确率(Precision)
精确率是衡量在所有模型预测为正类的样本中,实际为正类的样本的比例
精确率=真正例(TP)/(假正例FP+真正例TP)
其中真正例TP表示正确预测为正类的样本数,假正例FP表示错误预测为正类的负类样本数。
精确率对于那些错误预测正类代价较高的任务尤为重要
(3)召回率(Recall)
尽管提高指令以消除所有假正例可以将精确率提升至100%,这看似能极大提升精度,然而这样做可能会大幅度降低模型的召回率。因为模型会变得过于谨慎。——>为避免这种过度保守的预测导致正类样本的遗漏,考虑召回率这一指标。
召回率衡量的是模型正确预测的正类样本(TP)占所有实际正类样本的比例,反映了模型对正类的检出能力。
召回率=真正例(TP)/(假负例FN+真正例TP)
其中假负例FN表示实际为正类但被模型预测为负类的样本数
召回率对于那些漏检正类代价较高的任务尤为重要
召回率衡量了模型的查全能力,即所有正类样本中,模型能正确识别出多少
目标:防止模型过于保守,以至于错过真正的正类样本。
精确率和召回率通常一起使用以全面评估模型性能,二者相互依存,往往需要找一个平衡点
一个单一的高指标并不足以定义一个好的模型,而是需要同时考虑减少假正例和假负例的能力确定模型的优劣。
(4)置信区间:预测的可信程度
精确率、召回率确实是评估算法性能的重要指标,但在实际应用中,它们并不足以全面评价算法的优劣。现实生活问题往往涉及到连续数值的预测,而不仅仅是分类问题。
置信区间是一种统计参数估计方法,它利用一个区间来预测参数的可能值,这个区间的可信度即为置信度。
一般来说,置信度和置信区间的宽度是通向变化,当置信度很高时,置信区间通常较宽;置信度较宽也意味着置信度较高。
标签:数据分析,知识点,预测,召回,模型,TP,正类,类别,------ From: https://blog.csdn.net/zfyzfw/article/details/139479766