ch13 半监督学习

时间：2024-06-22 15:54:41浏览次数：23

标签：ch13 标记 sum 学习监督 ij quad Theta data

未标记样本

在生产活动中，有样本的数目会很少（因为标记很昂贵），从 LLM 的成功来看，在 unlabeled data 上训练模型是很有希望的。这种方法被称为半监督学习。

半监督学习又分为纯半监督学习和直推学习

纯半监督学习强调从 unlabeled data 中学习出一个好的模型
直推学习强调从 labeled data 中赋予 unlabeled data 一个标签，不强调模型是否存在，不在乎是否有泛化能力

而如果要使用 unlabeled data，需要一些假设

对于离散型数据，Cluster assumption：假设数据点在同一个 cluster 中的概率更大
对于连续型数据，Manifold assumption：假设数据点在低维流形上，流形上的点更有可能是同一个类别

生成式方法(GMM 再看看)

假设所有的数据都是由同一个潜在的模型生成的

类别标记$y \in \mathcal{Y}$,其中$\mathcal{Y} = \{1, 2, \cdots, N\}$，假设样本由 GMM 生成，每一个类别对应一个高斯混合成份

\[p(x) = \sum_{i=1}^N \alpha_i p(x;\Theta_i) \]

于是令$f(x)$为预测标记

\[f(x) = \arg \max_{y \in \mathcal{Y}} p(y|x) = \arg \max_{y \in \mathcal{Y}} \sum_i^{N} p(y,\Theta=i|x) \\ = \arg \max_{y \in \mathcal{Y}} \sum_i^{N} p(y | \Theta=i, x) p(\Theta=i|x) \\ \]

我们可以得知

\[p(\Theta = i| x) = \frac{p(x|\Theta=i)p(\Theta=i)}{p(x)} = \frac{\alpha_i p(x;\Theta=i)}{\sum_{j=1}^N \alpha_j p(x;\Theta=j)} \]

而$p(y | \Theta=i, x) $，类别标记对应一个混合成分，与$x$ 无关，所以

\[p(y | \Theta=i, x) = p(y = j| \Theta=i) = 1, \text{if } j = i, 0 \quad \text{otherwise} \]

其中$p(y = j| \Theta=i)$表示在混合成分$i$中，类别标记为$j$的概率，需要标记，而$p(\Theta=i|x)$表示在$x$的条件下，混合成分为$i$的概率，不需要标记

于是我们可以得到极大似然估计

\[LL(D_l \cup D_u) = \sum_{(x, y) \in D_l} \log p(x,y) + \sum_{x \in D_u} \log p(x) \]

半监督 SVM

在无标记数据上，我们希望找到一个超平面，是分隔两类有标记数据的超平面，并尽可能通过低密度的区域，这是考虑了 Clustering Assumption

TSVM 尝试将每一个 unlabeled data 分配到两个类别中，然后求解一个 SVM，使得最终的超平面间隔最大化，unlabeled data 的指派结果即为最终的结果

\[\min_{w,b,\xi} \frac{1}{2} \| w \|^2 + C_l \sum_{i=1}^l \xi_i + C_u \sum_{i=1}^u \xi_i \\ \text{s.t.} \quad y_i(w^T x_i + b) \geq 1 - \xi_i, \quad i = 1, 2, \cdots, l \\ \hat{y_i}(w^T x_i + b) \geq 1 - \xi_i, \quad i = 1, 2, \cdots, u \\ \xi_i \geq 0, \quad i = 1, 2, \cdots, l, u \]

如果使用这样的穷举指派计算，复杂度会很高，因此需要使用另外一种方式，高效计算

利用 labeled data 训练 SVM，并逐步根据 unlabeled data 调整超平面，直到收敛

图半监督学习

给定一个数据集，我们可以将数据点之间的相似度表示为一个图，即相似度矩阵$W$，其中$W_{ij}$表示数据点$i$和$j$之间的相似度，直观认为，相似度高的点应该属于同一个类别

我们使用高斯核函数来计算相似度

\[W_{ij} = \begin{cases} \exp \left( - \frac{\| x_i - x_j \|^2}{2 \sigma^2} \right), \quad \text{if } i \neq j \\ 0, \quad \text{otherwise} \end{cases} \]

二分类标记传播

我们学习的目标是一个函数$f: V \to \mathbb{R}$，使得相似的点在$f$的值上也相似，定义一个能量函数，使得相似的点在$f$的值上也相似

\[E(f) = \frac{1}{2} \sum_{i=1}^n \sum_{j=1}^n W_{ij} (f(x_i) - f(x_j))^2 \\ = \frac{1}{2} \sum_{i=1}^n \sum_{j=1}^n W_{ij} f(x_i)^2 - 2 W_{ij} f(x_i) f(x_j) + W_{ij}f(x_j)^2 \\ = \frac{1}{2} ( \sum_{i=1}^n d_i f(x_i)^2 + \sum_{j=1}^n d_j f(x_j)^2 - 2 \sum_{i=1}^n \sum_{j=1}^n W_{ij} f(x_i) f(x_j) ) \]

由于$W$是对称矩阵，所以$d_i = d_j$，于是我们可以得到

\[E(f) = \sum_{i=1}^n d_i f(x_i)^2 - \sum_{i=1}^n \sum_{j=1}^n W_{ij} f(x_i) f(x_j) \\ = f^T (D - W) f \]

其中$D$是度矩阵，$D_{ii} = \sum_{j=1}^n W_{ij}$，$f$是标记函数，$f_i = f(x_i)$，$W$是相似度矩阵

为了满足能量函数最小化的条件，我们可以得到

\[(D - W) f = 0 \]

其中我们叫做拉普拉斯矩阵$L = D - W$，同时要满足在有标记数据上的约束条件$f_i = y_i, i=1,2,\cdots,l$

根据这样的假设，我们可以写出

\[E(f) = [f_l^T, f_u^T] ( \begin{bmatrix} D_{ll} & 0_{lu} \\ 0_{ul} & D_{uu} \end{bmatrix} - \begin{bmatrix} W_{ll} & W_{lu} \\ W_{ul} & W_{uu} \end{bmatrix} ) \begin{bmatrix} f_l \\ f_u \end{bmatrix} \]

对$f_u$求导，可得

\[f_u = (D_{uu} - W_{uu})^{-1} W_{ul} f_l \]

这就是针对二分类问题的一个标记传播算法，我们可以通过代入有标记数据，一次传播得出闭式解

多分类标记传播

标签：ch13,标记,sum,学习,监督,ij,quad,Theta,data
From： https://www.cnblogs.com/Blackteaxx/p/18262409

Markdown学习
Markdown学习标题一级标题一个#后加标题名二级标题两个##后加标题名三级标题三个###后加标题名以此类推最多六级标题字体Hello,World!Hello,World!Hello,World!Hello,World!引用选择狂神说Java,走向人生巅峰分割线图片超链接点击跳转到百度列表A......
前端网页开发学习（HTML+CSS+JS）有这一篇就够！
目录HTML教程▐ 概述▐ 基础语法▐ 文本标签▐ 列表标签 ▐ 表格标签▐ 表单标签CSS教程▐概述▐基础语法▐选择器▐修饰文本▐修饰背景▐透明度▐伪类▐盒子模型▐ 浮动▐ 定位JavaScript教程▐概述▐ 基础语法▐函数▐事件▐......
【自学】从零开始学习数据结构--1.数据结构绪论
本系列只用于我自己自学总结做出来的笔记，具有一定的参考性，但不多。凑合看吧。数据：数据是描述客观事物的符号，是计算机中可以操作的对象，是能被计算机识别，并输入给计算机处理的符号集合。例如图片，音频这样的。数据元素：组成数据的，有一定意义的基本单位，在计算机中通常作为整体......
数据挖掘——机器学习算法应用
1. 朴素贝叶斯分类器数据UniversalBank是一家业绩快速增长的银行。为了增加贷款业务，该银行探索将储蓄客户转变成个人贷款客户的方式。银行收集了5000条客户数据，包括客户特征（age、experience、income、family、CCAvg、education、ZipCode）、客户对上一次贷款营销活动的响......
【深度学习】python之人工智能应用篇——图像生成技术（二）
说明：两篇文章根据应用场景代码示例区分，其他内容相同。图像生成技术（一）：包含游戏角色项目实例代码、图像编辑和修复任务的示例代码和图像分类的Python代码示例图像生成技术（二）：包含简化伪代码示例、使用GAN生成医学图像代码示例和使用GAN生成产品展示图代码示例图像生成是......
机器学习Day3
第三章线性模型1.形式一般用向量形式表示，f(x)=wTx+b2.线性回归线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记最小二乘法：基于均方差最小化来进行模型求解的方法，即试图找到一条直线，使所有样本到直线上的欧氏距离之和最小多元线性回归：样本有d个属性描述......
机器学习python实践——由特征选择引发的关于卡方检验的一些个人思考
最近在用python进行机器学习实践，在做到特征选择这一部分时，对于SelectPercentile和SelectKBest方法有些不理解，所以去了查看了帮助文档，但是在帮助文档的例子中出现了"chi2"，没接触过，看过去就更懵了，查了一下资料知道"chi2"是在求卡方值，又没接触过，我整个人都裂了，但是还是耐着性子去......
【深度学习】python之人工智能应用篇——图像生成
图像生成是计算机视觉和计算机图形学领域的一个重要研究方向，它指的是通过计算机算法和技术生成或合成图像的过程。随着深度学习、生成模型等技术的发展，图像生成领域取得了显著的进步，并在多个应用场景中发挥着重要作用。概述图像生成技术主要依赖于各种生成模型和算法，用于从文......
消息队列（MQ）学习文档
目录1.简介2.MQ的优势2.1解耦2.2异步2.3消峰3.MQ的劣势3.1系统可用性降低3.2系统复杂度提高4.常见的MQ产品4.1ApacheKafka4.2RabbitMQ4.3ActiveMQ4.4RocketMQ5.MQ的工作模式5.1点对点模式（P2P）5.2发布/订阅模式（Pub/Sub）5.3请求/回复模式（Reques......
【猫狗识别系统】图像识别Python+TensorFlow+卷积神经网络算法+人工智能深度学习
猫狗识别系统。通过TensorFlow搭建MobileNetV2轻量级卷积神经算法网络模型，通过对猫狗的图片数据集进行训练，得到一个进度较高的H5格式的模型文件。然后使用Django框架搭建了一个Web网页端可视化操作界面。实现用户上传一张图片识别其名称。一、前言本研究中，我们开发了一个基于深......