构建模型
线性模型、决策树、随机森林、朴素贝叶斯、支持向量机等机器算法适用于不同的数据类型和形态。
根据输入、输出数据的不同,分为如下类别。
输入分类
如果数据带有标签,那么是监督学习问题。
如果数据未标注过,那么是无监督学习问题。
输出分类
如果模型的输出是连续的数据,那么是回归问题。
如果模型的输出是离散的数据,那么是分类问题。
如果模型的输出是用输入数据划分出的簇,那么是聚类问题。
模型评估
模型评估的目的就是不断优化模型,对于分类问题,常见的评价标准有正确率、准确率、召回率、ROC曲线和AUC面积等。
对于回归问题,往往使用均方误差(MSE)等指标评价模型的效果,也使用回归损失函数作为评价指标。