首页 > 其他分享 >【课程随记】机器学习

【课程随记】机器学习

时间:2023-02-24 13:59:17浏览次数:34  
标签:loss 机器 误差 模型 损失 学习 课程 tp 随记

第一节 机器学习的基本概念

通过优化算法,找到最好模型
输入空间,输出空间
输入 特征向量,特征空间
联合分布:输入与输出的随机变量X与Y遵循联合概率分布P(X,Y)。学习过程中假设X,Y是依照P(X,Y)独立同分布产生的。
监督学习(supervised learning)目的是学习一个由输入到输出的映射。模型属于由输入空间(input space)到输出空间(output space)的映射(mapping)的集合。假设空间(hypothesis space)的确定就意味着学习范围的确定,学习过程就是在假设空间进行搜索的过程。找到最优的函数。
统计机器学习
method=model+strategy+algorothm
监督学习中,模型就是所要学习的条件概率分布或者决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数。
概率模型,
非概率模型

模型:
线性回归算法的结果是一个:具有特定值的稀疏向量组成的模型。
dt算法的结果是一个具有特定值的ifthen语句树组成的模型。
nn+bp+gd共同组成一个由特定值的向量或权重矩阵和特定值的图结构组成的模型。
策略:

按照什么样的准则学习或选择最优的模型。
损失函数 loss function:度量“模型对单个样本预测能力的好坏”。
风险函数:度量“平均意义下模型预测能力的好坏”。
常见损失函数loss function:
0-1损失、平方损失、绝对值损失、对数损失、hinge loss损失。
风险函数risk function或期望损失expected loss:
empirical risk经验风险
empirical loss经验损失
根据大数定理:
经验风险最小化(structural risk minimization)
:经验风险最小的模型就是最优模型。最大似然估计就是一个经验风险最小化的实例。
结构风险最小化:
结构风险是在经验风险的基础上加上表示模型复杂度的正则化项或惩罚项。
SLM simulate learning methodology
模型评估与选择
训练误差:学习器在训练集上的误差,又叫“经验误差”。
泛化误差:学习器在新样本(测试集)上的误差 。
训练集和测试集应该独立同分布。
过拟合over fitting:模型过于复杂的情况下预测误差反而变大。包含的参数过多,以至于...。high variance,训练集表现好,测试集表现差。
欠拟合under fitting:没有很好地捕捉到数据特征。high bias,
泛化误差=偏差bias+方差variance+噪声
偏差:度量了学习算法的期望预测与真实结果的偏离程度。
方差:度量了同样大小的训练集的变动所导致的学习性能的变动。
噪声:
性能度量反映了任务需求,
分类任务:
精度:正确分类样本数占样本总数的比例。
错误率:分类错误样本数占样本总数的比例。
查准率 precision 预测为正(tp+fp)里面真正(tp)的比例。
查全率 recall 真正(tp+fn)里面被预测出(tp)的比例。
TPR真正率
FPR假正率 模型覆盖程度。
roc曲线 越陡越好。
roc的缺陷是,无视样本不平衡的问题。

标签:loss,机器,误差,模型,损失,学习,课程,tp,随记
From: https://www.cnblogs.com/zhaoke271828/p/17149622.html

相关文章

  • 机器学习 吴恩达 第十四章 笔记
    十四、异常检测(AnomalyDetection)14.1问题的动机  在接下来的小节里,我将大家介绍异常检测(Anomalydetection)问题.这是机器学习算法的一个常见应用.这种算法的一......
  • 一次在工作组的内网里渗透到第三层内网【从 0 到 1 打穿所有内网机器】
    前言一次攻防演练中首先是团队拿到了一个Webshell,后续又把权限弹到了CobaltStrike方便我来做内网渗透:通过发现当前机器是一台公网服务器,只有公网IP:xxx.xxx.xxx.16通过......
  • 选择最佳机器学习模型的10步指南
    机器学习可以用来解决广泛的问题。但是有很多多不同的模型可以选择,要知道哪一个适合是一个非常麻烦的事情。本文的总结将帮助你选择最适合需求的机器学习模型。完整文章:......
  • 高端Java培训课程的学习有什么区别
    Java软件开发想必大家都是了解的,作为互联网炙手可热的行业,这类的相关人才各方面都得到了不少的优待,所以,想要进入这个行业发展的年轻人非常多,相对的大家都更喜欢报名Java培......
  • Python中用PyTorch机器学习神经网络分类预测银行客户流失模型|附代码数据
    阅读全文:http://tecdat.cn/?p=8522最近我们被客户要求撰写关于神经网络的研究报告,包括一些图形和统计输出。分类问题属于机器学习问题的类别,其中给定一组特征,任务是预测......
  • 个人随记 —— 不同 VPC 下 EKS 跨集群服务访问
    背景在本文的问题前,需要对AWS的产品进行解释:VPC:VirtualPrivateCloud,AWS在单region下提供的私有网络,每个VPC都拥有一个独立网段,并且和其他VPC进行完全的私网......
  • 机器学习日志 泰坦尼克号获救预测 决策树
    我是链接第一次做机器学习的题目题目要求:给定一堆已知的泰坦尼克号船员信息,每个人的信息包括PassengerId=>乘客IDPclass=>客舱等级(1/2/3等舱位)Name=>乘客姓名......
  • AI智能机器人,在这里也可以体验~
    “大家好,我是雄雄,欢迎关注微信公众号:雄雄的小课堂。​编辑现在是:2023年2月17日00:14:42前言最近​​AI​​智能​​chatgpt​​特别的火,相信好多人都已经体验过了,之前我的......
  • 泛微OA技巧随记
    隐藏明细表的加号按钮,如果不想让用户手工添行,必须通过自动联动添明细行,可以将明细表的加号按钮隐藏.document.getElementById('$addbutton0$').style.display="none";......
  • RPC 课程简介
    RPC课程简介RPC是只远程过程调用,也就是说两台服务器A,B,一个应用部署在A服务器上,另一个应用部署在B服务器上,A服务器上的应用想要调用B服务器上的应用提供的方法/函数,由于不......