本文介绍机器学习中一些基本的概念和分类
目录
有监督学习
- 是一种通过训练数据集来预测目标变量的方法,其中每个训练样本都有一个已知的标签或输出值。
- 有监督学习的特点是“有x有y”。
- 有监督学习的目的是为了利用“有x有y”的数据进行学习,从而对于“有x无y”的数据,去预测它的“y”。
- 核心在于使得预测的“y”和真实的“y”误差尽可能小。
有监督学习分为两类:分类和回归。两者的本质特征在于要得到的y的类型。
回归
在回归问题中,y是连续的数值变量。比如一元线性回归。
分类
在分类问题中,y是分类型变量。定类变量的特点有:
- 不是连续的数值,而是离散值。
- 顺序和大小没有意义。各个分类是平等的,不存在分类2>分类1的说法
无监督学习
- 是一种利用算法自动提取给定数据的本质结构和规律的机器学习算法。
- 无监督学习的本质特征是“有x无y”。
- 无监督学习的目标是“捕捉并提取数据的特征”。而有监督学习的目标是“对未知数据进行预测”
- 无监督学习常见的应用有聚类和降维。
聚类
聚类是将数据中特征相似的数据按组分开的工作。
聚类大致分成两种:分层聚类和非分层聚类。
- 分层聚类:将特征相似的聚类逐个合并,然后重复进行聚类,直到最终成为一个大聚类。如:系统聚类。
- 非分层聚类:先指定聚类数,然后找到以该数目进行聚类的最优分开数据的方法。如:k-means。
降维
降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。
常见的降维算法有:PCA、LDA、LLE等
强化学习
- 强化学习时指从与给定环境的互动中,为了最大化算法的学习成果反复试错,以达到最佳的一种学习方式。
- 核心是对学习行为进行“奖励”,从而达到最佳行动。
机器学习适合的领域
机器学习的要求有:
- 数据存在且充足。必须有充足的数据用于模型的训练。
- 数据最好是定量的而不是定性的。
- 不关注推理的过程而只关注最后的预测结果。
机器学习的弱点:
- 特征量难于寻找和设计。深度学习为解决这一问题的一种方案。
- 对数据有很强的依赖性。