机器学习——必备前置知识
- 零、前言
- 一、机器学习是什么?
- 二、评价指标
- 三、训练集、验证集与测试集
- 四、随机重复实验
- 五、K折交叉验证
- 六、统计有效性检验
- 七、实际应用步骤
- 八、总结
零、前言
机器学习通过构建数学模型,使计算机能够从数据中自动学习规律,并对未来未知数据进行预测或决策。
机器学习的核心在于“学习”,即如何让机器根据已有数据自我改进。为了确保学习效果的有效性,我们需要一系列评价指标来衡量模型性能。对于回归任务,常用平均绝对误差(MAE)、均方误差(MSE)及均方根误差(RMSE);对于分类任务,则关注准确率(Accuracy)、精度(Precision)、召回率(Recall)以及F1分数。此外,在信息检索、自然语言处理等领域,还有DCG、NDCG、BLEU等特定任务的评估标准。
合理划分训练集、验证集与测试集对保证模型的泛化能力至关重要。这不仅有助于避免过拟合现象,还能更客观地评估模型表现。随机重复实验和K折交叉验证等方法也被广泛应用,以提高结果的可靠性。统计有效性检验为我们在不确定性环境下做出科学判断提供了理论依据,包括偏差与方差的权衡、z检验、t检验等内容。
一、机器学习是什么?
机器学习:对学习的变化,进行构造或者修改,提高模型的泛化能力
二、评价指标
不同的任务有不同的评价指标
1)回归任务(MAE, MSE,RMSE)
概念:在回归任务中,模型的目标是预测连续值
指标:
1. 平均绝对误差(MAE)
- 公式:
MAE = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| MAE=n1i=1∑n∣yi−y^i∣ - 讲解:
y ^ i 是真实值 \hat{y}_i\text{是真实值} y^i是真实值
y i 是预测值 \ y_i\text{是预测值} yi是预测值 - 特点:MAE 对异常值相对不敏感,因为使用的是绝对差值,不会因大误差而过度放大。
2. 均方误差(MSE)
公式:
MSE = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 MSE=n1i=1∑n(yi−y^i)2
特点:MSE 对异常值非常敏感,因为使用的是平方差,较大的误差会被显著放大。因此,MSE 更加重视较大误差的影响
3. 均方根误差(RMSE)
公式:
RMSE = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 \text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} RMSE=n1i=1∑n(yi−y^i)2
特点:RMSE 与 MSE 类似,但其单位与原始数据相同,更易于解释。它同样对异常值敏感,适合用于需要强调较大误差的情况
4.MAE与RMSE的区别(应用场景)
- MAE:
适用于对异常值不敏感、关注整体误差水平的场景。例如,在预测用户评分时,可能更关心整体评分的准确性,而不是个别极端评分。 - RMSE:
适用于对较大误差敏感、需要强调异常值影响的场景。例如,在预测股票价格或房屋价格时,较大的预测误差可能会带来更大的风险,因此使用 RMSE 更合适。
5.总结
2)二分类任务 (P,R,F)
模型的结果有4种可能:
我的理解是:
先看预测标签是P还是N
再看真实标签是T还是F
比如FN
预测标签是错误的(N),前面也是错误的(F),所以真实的标签是正确的
1. 准确率(Accuracy)
定义:所有预测正确的样本数占总样本数的比例
公式:
Accuracy = TP + TN TP + FP + FN + TN \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{FP} + \text{FN} + \text{TN}} Accuracy=TP+FP+FN+TNTP+TN
2. 精度(Precision)
Precision = TP TP + FP \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} Precision=TP+FPTP
3.召回率(Recall)
- 定义:实际为正类的样本中,被正确预测为正类的比例
- 公式:
Recall = TP TP + FN \text{Recall} = \frac{\text{ TP}}{\text{TP} + \text{FN}} Recall