机器学习就是把无用的数据转换成有用的信息
目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型(枚举或者离散的)的,而在回归算法中通常是连续型的。
标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)
数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)
机器学习的主要任务
- 将实例数据划分到合适的分类中。
- 回归,它主要用于预测数值型数据。大多数人可能都见过回归的例子——数据拟合曲线:通过给定数据点的最优拟合曲线
分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息(label信息)。
与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。
在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。