本书介绍
在处理机器学习问题时,通常有两种类型的数据(和机器学习模型)
监督数据:总是有一个或多个目标与之相关联。
无监督数据:没有任何目标变量。
有监督的问题比无监督的问题更容易解决。要求预测一个值的问题被称为监督问题。例如,如果问题是预测给定历史房价的房价,比如医院、学校或超市的存在,到最近的公共交通工具的距离等。是一个有监督的问题。类似地,当我们被提供猫和狗的图像,并且我们预先知道哪些是猫,哪些是狗,并且如果任务是创建预测所提供的图像是猫还是狗的模型,则该问题被认为是被监督的。
如果目标是一个实数,这个问题被定义为一个回归问题。因此,监督问题可以分为两个子类:
分类:预测一个类别,例如狗或猫。
回归:预测一个值,例如房价。必须注意的是,有时我们可能在分类设置中使用回归,这取决于用于评估的指标。但我们稍后会谈到这一点。机器学习问题的另一种类型是无监督类型。无监督数据集没有相关的目标,一般来说,与有监督的问题相比,处理起来更具挑战性。假设你在一家处理信用卡交易的金融公司工作。每秒钟都有很多数据进来。唯一的问题是,很难找到将每笔交易标记为有效或真实交易或欺诈的人。当我们没有任何关于交易是欺诈还是真实的信息时,这个问题就变成了一个无人监管的问题。为了解决这些问题,我们必须考虑数据可以分成多少个簇。聚类是解决这类问题的方法之一,但必须注意的是,还有其他几种方法可以应用于无监督的问题。对于一个欺诈检测问题,我们可以说数据可以分为两类(欺诈或正版)。
本书目录
本书内容截图