第一节 机器学习的基本概念
通过优化算法,找到最好模型
输入空间,输出空间
输入 特征向量,特征空间
联合分布:输入与输出的随机变量X与Y遵循联合概率分布P(X,Y)。学习过程中假设X,Y是依照P(X,Y)独立同分布产生的。
监督学习(supervised learning)目的是学习一个由输入到输出的映射。模型属于由输入空间(input space)到输出空间(output space)的映射(mapping)的集合。假设空间(hypothesis space)的确定就意味着学习范围的确定,学习过程就是在假设空间进行搜索的过程。找到最优的函数。
统计机器学习
method=model+strategy+algorothm
监督学习中,模型就是所要学习的条件概率分布或者决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数。
概率模型,
非概率模型
模型:
线性回归算法的结果是一个:具有特定值的稀疏向量组成的模型。
dt算法的结果是一个具有特定值的ifthen语句树组成的模型。
nn+bp+gd共同组成一个由特定值的向量或权重矩阵和特定值的图结构组成的模型。
策略:
按照什么样的准则学习或选择最优的模型。
损失函数 loss function:度量“模型对单个样本预测能力的好坏”。
风险函数:度量“平均意义下模型预测能力的好坏”。
常见损失函数loss function:
0-1损失、平方损失、绝对值损失、对数损失、hinge loss损失。
风险函数risk function或期望损失expected loss:
empirical risk经验风险
empirical loss经验损失
根据大数定理:
经验风险最小化(structural risk minimization)
:经验风险最小的模型就是最优模型。最大似然估计就是一个经验风险最小化的实例。
结构风险最小化:
结构风险是在经验风险的基础上加上表示模型复杂度的正则化项或惩罚项。
SLM simulate learning methodology
模型评估与选择
训练误差:学习器在训练集上的误差,又叫“经验误差”。
泛化误差:学习器在新样本(测试集)上的误差 。
训练集和测试集应该独立同分布。
过拟合over fitting:模型过于复杂的情况下预测误差反而变大。包含的参数过多,以至于...。high variance,训练集表现好,测试集表现差。
欠拟合under fitting:没有很好地捕捉到数据特征。high bias,
泛化误差=偏差bias+方差variance+噪声。
偏差:度量了学习算法的期望预测与真实结果的偏离程度。
方差:度量了同样大小的训练集的变动所导致的学习性能的变动。
噪声:
性能度量反映了任务需求,
分类任务:
精度:正确分类样本数占样本总数的比例。
错误率:分类错误样本数占样本总数的比例。
查准率 precision 预测为正(tp+fp)里面真正(tp)的比例。
查全率 recall 真正(tp+fn)里面被预测出(tp)的比例。
TPR真正率
FPR假正率 模型覆盖程度。
roc曲线 越陡越好。
roc的缺陷是,无视样本不平衡的问题。