机器学习根据训练模型以及训练数据的不同方式,将机器学习方法分为如下:
- 有监督:使用有标签的数据进行训练;
- 无监督:使用无标签的数据进行训练;
- 半监督:同时用有标签和无标签的数据进行训练。通常是两阶段的训练,先用(较小规模的)有标签数据训练一个Teacher模型,再用这个模型对(较大规模的)无标签数据预测伪标签,作为Student模型的训练数据;目前已经有很多直接end-to-end地训练,能够大大减少半监督训练的工作;
- 自监督:在无标注数据上训练,通过一些方法让模型学习到数据的inner representation,再接下游任务,例如加一个MLP作为分类器等。但接了下游任务之后还是需要在特定的有标签数据上finetune,只是有时候可以选择把前面的层完全固定,只finetune后面接的网络的参数;
- 弱监督:用包含噪声的有标签数据训练。