首页 > 其他分享 >统计机器学习

统计机器学习

时间：2022-12-11 10:45:23浏览次数：32

标签：frac 模型 Analysis 学习监督 learning 机器统计

学习的类型

1. 监督学习（supervised learning）

监督学习可以被视为一种学生学习的过程，即向导师提问并回答。在机器学习情境中，学生对应于计算机，导师对应于计算机的用户;计算机从问与答的成对样本中学习一种从问题到其答案的映射。

监督学习的目标在于获得 泛化能力(generalization ability) ：一种能够为从未被学习过的问题猜出恰当答案的能力。

监督学习的典型任务：

回归(regression) ，当答案是一个实数值(如:温度)
分类(classification) ，如果答案是一个分类值(如:“是"或“否”)
排序(ranking) ，如果答案是一个数列值(如:“好”“中”或“劣”)

2. 非监督学习（unsupervised learning）

非监督学习被认为是，导师不存在并且学生自学。在机器学习情境中，计算机通过互联网自动地收集数据并且尝试在没有用户任何指导下抽取有用的知识。因此，非监督学习比监督学习更加自动化，尽管其目标不一定指定清楚。

非监督学习的典型任务：

聚类(data clustering)
异常点检测(outlier detection)
变化检测(change detection)

3. 强化学习（reinforcement learning）

强化学习与监督学习类似，也是以使计算机获得对没有学习过的问题做出正确解答的泛化能力为目标，但是在学习过程中，不设置导师提示对错、告知最终答案的环节。相反，导师评价(evaluate)学生的行为并给予其反馈。强化学习的目标是基于来自导师的反馈，使得学生提高其行为，从而最大化导师的评价。

4. 高级主题

半监督学习(semi-supervised learning)
集成学习(ensemble learning)
矩阵学习(matrix learning)、张量学习(tensor learning)
在线学习(online learning)
迁移学习(transfer learning)
降维(dimensionality reduction)

5. 其他热点

关联规则挖掘
概率图模型
深度学习
图、视频、文本、音频、网络的分析
分布式计算

两种学习模型：判别式模型和生成式模型

监督学习：分类、回归、标记

概率方式
- 判别式模型：直接对 \(p(y|x)\) 建模或者学习 \(y=f(x)\)
  - 逻辑回归(Logistic Regression)
  - 条件随机场(Conditional Random Field，CRF)
- 生成式模型：学习联合概率分布 \(p(x,y)\)
  - 朴素贝叶斯(Naive Bayesian Algorithm)
非概率方式
- 线性回归(Linear Regression)/岭回归/LASSO
- 样条回归(Spline Regression)
- 支持向量机(Support Vector Machine，SVM) ：基于间隔
- K近邻(K-Nearest Neighbor，KNN) ：基于距离
- 决策树(Decision Tree) ：基于树的节点

非监督学习：降维、聚类、特征学习、概率密度估计（生成数据）

概率方式
- 生成模型：直接对 \(p(x)\) 建模
  - 高斯混合模型(Gaussian Mixture Model，GMM)
  - 隐马尔可夫模型(Hidden Markov Model，HMM)
  - 因子分析(Factor Analysis，FA)
  - 概率主成分分析(Probabilistic Principal Component Analysis，P-PCA)
  - 概率潜在语义分析(Probabilistic Latent Semantic Analysis，P-LSA)
  - 潜在狄利克雷分布 (Latent Dirichlet Allocation，LDA)
- 深度生成模型：利用神经网络来建模 \(p(x|z;\theta)\)，并不对分布本身进行建模，而是建模生成过程
  - 玻尔兹曼机(Boltzmann machine)/受限玻尔兹曼机(Restricted Boltzmann Machines，RBM)
  - 深度信念网络(DeepBelief Network，DBN）
  - 变分自编码器(Variational Auto-Encoders，VAE)
  - 生成随机网络(Generative Stochastic Network，GSN)
  - 生成对抗网络(Generative Adversarial Network，GAN)
非概率方式
- 主成分分析(Principal Component Analysis，PCA)/核主成分分析(Kernel Principal Component Analysis，KPCA)
- 线性判别分析(Linear Discriminant Analysis，LDA)
- 多维尺度变换(Multi-dimensional Scaling，MDS)
- 局部线性嵌入(Locally Linear Embedding，LLE)
- 自编码器(Auto-Encoder)/降噪自编码器(Denoising Auto-Encoder，DAE)
- K-均值(K-means)
- 层次聚类(Hierarchical clustering)
- 谱聚类(Spectral clustering)
- 潜在语义分析((Latent Semantic Analysis，LSA)

正则化（约束）方法

\(l_1\)约束
\(l_2\)约束
\(l_1+l_2\)约束
\(l_{1,2}\)约束
迹范数约束

损失函数

回归
- \(l_2\)损失(平方差损失)
- \(l_1\)损失
- Huber损失
- Tukey损失
分类
- 0/1损失
- 指数损失
- Hinge损失
- Ramp损失
- 交叉熵损失函数

评价指标

回归
- 均方误差(Mean Squared Error，MSE)
- 均方根误差(Root Mean Square Error，RMSE)
- 平方绝对误差(Mean Absolute Error，MAE)
分类
- 混淆矩阵(Confusion Matrix)
  
  真正样本(True Positive,TP) : 样本真实类别是正向的,模型预测的类别也是正向的
  真负样本(True Negative,TN) : 样本真实类别是负向的,模型预测的类别也是负向的
  假正样本(False Positive,FP) : 样本真实类别是负向的,模型预测的类别是正向的
  假负样本(False Negative,FN) : 样本真实类别是正向的,模型预测的类别是负向的
- 正确率(accuracy)
  
  \[Accuracy=\frac{TP +TN}{TN+FN +FP +TP} \]
- 精准率(Precision)
  
  \[Precision=\frac{TP}{TP+FP} \]
- 召回率(Recall)
  
  \[Recall=\frac{TP}{TP+FN} \]
- 特异度(Specificity)
  
  \[Specificity=\frac{TN}{TN+FP} \]
- F-值
  
  \[F_{\beta}-Measure=\frac{(1+\beta^2)×Precision×Recall}{\beta^2×Precision+Recall} \]
  当\(\beta=1\)时候，即精准度和召回率一样重要的时候，公式如下：
  
  \[F_1−Measure=\frac{2}{\frac{1}{Precision}+\frac{1}{Recall}}=\frac{2×Precision×Recall}{Precision+Recall} \]
- ROC曲线
聚类
- 纯度(Purity)
- Rand指数
- 互信息(Mutual Information)

标签：frac,模型,Analysis,学习,监督,learning,机器,统计
From： https://www.cnblogs.com/jijunhao/p/16972924.html

相关文章

2022-2023-1 20221307张城玮《计算机基础与程序设计》第十五周学习总结
作业信息班级链接：https://edu.cnblogs.com/campus/besti/2022-2023-1-CFAP作业要求：https://www.cnblogs.com/rocedu/p/9577842.html#WEEK15作业链接：2022-2023-120221307......
C++学习---cstdio的源码学习分析04-创建临时文件函数tmpfile
cstdio中的文件操作函数stdio.h中定义了文件删除函数remove，文件重命名函数rename，创建临时文件函数tmpfile，生成临时文件名函数tmpnam。接下来我们一起来分析一下tmpfile对应......
学习效率好低...
为什么感觉自己学习效率这么低?我觉得最重要就是分析自己效率低的原因我总是忍不住看微信，回微信消息，注意力也总是被分散，再加上学习的内容如果不简单，很容易导致学习到的东......
java初步学习集合（基于黑马的课进行自学，初学者，不喜勿喷）12
初步学习集合基本概念集合和数组相似，都可以储存数据，不同的是，集合可以自动扩容，且集合只能存储引用数据类型，不能直接存储基本数据类型基本格式这里先用最常用的ArraryLi......
AIGC：ChatGPT(一个里程碑式的对话聊天机器人)的简介(意义/功能/核心技术等)、使用方法(
AIGC：ChatGPT(一个里程碑式的对话聊天机器人)的简介(意义/功能/核心技术等)、使用方法(七类任务)、案例应用(提问基础性/事实性/逻辑性/创造性/开放性的问题以及编程相关)之......
从推荐模型的基础特点看大规模推荐类深度学习系统的设计
今天给大家带来腾讯专家工程师、腾讯平台与内容事业群（PCG）技术中台核心引擎“无量系统”负责人袁镱博士所做的分享《从推荐模型的基础特点看大规模推荐类深度学习系统的设计.......
2022-12-10 纳斯达克最近走势，学习这个世界，永远是先模仿，再创新
先从最近的走势开始吧2022年12月9日 2022年12月5号的下跌 ......
【学习计划】蒟蒻大学生的疲惫寒假
线性代数：矩阵运算（以及看了一半的行列式和逆矩阵）数据分析：numpy/matplotlib绘图（有个不知道存去哪里的教材）神经网络：卷积神经网络（填博客的坑）pytorch用法（！一窍不通）再次巩固P......
Blazor和Vue对比学习（进阶.路由导航四）：路由传参
客户端路由传参，主要通过两种方式：（1）路径参数(route)，如/student-detial/1，其中/student为路由，1为传递的参数；（2）查询参数(query)，如/student-detail?id=1&name=zs&age=18&sex=男。......
SpringSecurity 学习记录
SpringSecurity简介SpringSecurity，这是一种基于SpringAOP和Servlet过滤器的安全框架。它提供全面的安全性解决方案，同时在Web请求级和方法调用级处理身份确认和授......

赞助商

阅读排行