A Brief Introduction to Weakly Supervised Learning 论文总结

监督学习技术通过从大量训练样本中学习来构建预测模型，每个训练样本都有一个标签指示其真实的输出。尽管当前的技术已经取得了很大成功，但值得注意的是，在许多任务中，由于数据标注过程成本高昂，难以获得强监督信息，如完全的真实标签。因此，期望机器学习技术能够处理弱监督。本文回顾了弱监督学习的一些研究进展，重点讨论了三种典型的弱监督类型：不完全监督（只有一部分训练数据被标注）；不精确监督（训练数据只给出粗略标签）；不准确监督（给定的标签不总是准确的真实标签）。

前言

在实际训练模型的过程中，使用的数据可能会因标注成本高昂，数据匮乏等情况而出现无法正常实现强监督的目标，这个时候就需要弱监督学习技术来解决这个问题。本文作者主要讲了三种弱监督学习类型，它们分别为：不完全监督（incomplete supervision），不精确监督（inexact supervision），不准确监督（inaccurate supervision），而这三种弱监督学习类型又有很多实现方法。

Incomplete Supervision（不完全监督）

Incomplete Supervision主要用于只有少量标注数据的情况。一般这种方法的目的是，让模型学习到一个 X 到 Y 的对应关系，在计算机视觉的背景下，X可以粗略的理解为给出的图片，而Y可以理解为这张图片相关的标签。

有了这个前提，Incomplete Supervision的训练数据集就可以表示为D ={(x1, y1), . . . , ( $x_l$ , $y_l$ ), $x_{l+1}$ . . . , $x_m$ }, 其中有括号的就是代表有标注的部分（在文中也叫“labeled data”），没有括号的就是没标注的部分(在文中叫“unlabeled data”)。

为了解决这个问题，有两种主流的技术分别是active learning和semi-supervised learning。

Active Learning（主动学习）

Active Learning简短来说就是通过现有的labeled data来挑选最有价值的unlabeled data，然后人为给这些有价值的unlabeled data进行标注，然后将这些新标注的数据作为labeled data重新训练，更新模型，如此往复迭代。

下面是Active Learning的流程图，方便理解

Semi-Supervised Learning（半监督学习）

semi-supervised learning方法与active learning的最大不同就是这个方法不需要人为标注label。

对于这个方法，作者给出了一个直观的例子

假设有一个正负的预测问题，如图所示

test data point位于+和-的中间，所以无法分类，但是如果我们观察其他一些没有被标记的点，也就是右图中的灰点就可以初步判断，这个点更有可能属于+的部分。

这里也有两种假设，分别是cluster assumption和manifold assumption

Cluster Assumption（集群假设）

这种方法假设数据集有多个集群（可以理解为点聚集的高密度区域），不同类别的样本一般都位于某个集群区域中，而且这些集群区域之间是被低密度区域隔开的（可以理解为离散的点）。

Manifold Assumption（流形假设）

流体假设认为，高维数据实际上存在于低维流形上，这意味着虽然数据表面上看起来复杂的分布在高维空间中，但是它们是由一个低维度结构生成的。而且，数据的类别标签在低维流形上是平滑变化的，也就是说在流形上相邻的点可能属于同一类别。

下面是semi-supervised learning的流程图

Inexact Supervision（不精确监督）

Inexact supervision使用的场景是给出的训练数据有标签，但是标签不准确的情况。

Inexact Supervision任务的训练数据集可以表示为D = {( $X_1$ , $y_1$ ), . . . , ( $X_m$ , $y_m$ )},这里的每一个X都是一个"bag"，这里面每一个"bag"里面都有多个实例， $y_i$ 表示的就是实例的标签，如果一个bag是正包，那么代表这个包里面至少有一个实例x是正例，但是不知道这里面哪一个x是正例。如果一个包是负包，那么这个包里面的实例x全部都是负例。