首页 > 其他分享 >Pseudo-Label伪标签

Pseudo-Label伪标签

时间:2024-01-26 09:11:19浏览次数:31  
标签:标签 模型 Pseudo Label 监督 数据

1. Semi-Supervised Learning

Semi-Supervised Learning(半监督学习)是监督学习和无监督学习的一种结合方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。

2. Pseudo-Label

产生伪标签的步骤非常简单,可以用如下步骤概括:
Step1: 给定带标签数据和不带标签的数据
Step2: 使用带标签数据训练模型
Step3: 使用训练好的模型预测没有标签的数据,得到Pseudo-label(伪标签)
Step4:从不带标签的数据中拿出一部分数据加入到带标签数据集中。重复Step2

3. Entropy-based Regularization

对于分类模型,我们当然期望输出的某一个类别拥有很大的置信度,其它的类别置信度很小,这样表明该模型对预测结果很有信心。


在数学中,我们可以用熵来度量该模型对输出结果有没有信心。有关熵的介绍可以参考之前的一篇博客:什么是熵,如何计算?
y^{u}的熵:
y^{u}的预测结果是,则;
y^{u}的预测结果是,则$E(y^{u})=\ln 5。
可以看到,当模型对某一预测结果置信度越高,熵越小。对于预测模型,我们自然希望它的熵越小越好。

 

所以,我们可以在损失函数上加上熵正则项:

 

 

4. Why could Pseudo-Label work?

那么伪标签为何能够用于半监督模型呢,论文 Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks给出了两点解释:

  1. 半监督学习的目的是为了使用无标签数据增强模型的泛化性。而cluster assumption表明,决策边界位于低密度区域(low-density regions)能够提高模型的泛化性。而高密度区域的结果应该具有相似的输出结果。而伪标签就是取最高概率的作为伪标签;
  2. 熵正则通过最小化未标记数据的类概率的条件熵,促进了类之间的低密度分离,而无需对密度进行任何建模,通过熵正则化与伪标签具有相同的作用效果,都是希望利用未标签数据的分布的重叠程度的信息。

标签:标签,模型,Pseudo,Label,监督,数据
From: https://www.cnblogs.com/chentiao/p/17988584

相关文章

  • 解决IE浏览器textarea标签placeholder不生效的问题
    IE10给textarea设置了placeholder,F12控制台打印document.getElementById(id).getAttribute('placeholder'),可以看到placeholder的值,但是浏览器不显示,可以再添加如下代码显示出来,不需要引用JQuery,前提是该元素已经设置了placeholder属性,并且浏览器支持placeholder,IE8和IE9不支持,参......
  • 【K8S】label标签常用命令
    node节点增加、修改、删除、查看、查找label标签单个node增加标签:kubectllabelnode<nodename>type=basic所有node增加标签:kubectllabelnode--alltype=basic修改:kubectllabelnode<nodename>type=special--overwrite删除单个标签:kubectllabelnode<nodename>type-......
  • cnf结构探索与应用的文献-归入cmt标签
      @inproceedings{DBLP:conf/gcai/JamaliM17,author={SimaJamaliandDavidMitchell},editor={ChristophBenzm{\"{u}}llerandChristineL.LisettiandMartinTheobald},t......
  • k8s - Promtail 重写日志标签名
    1.Promtail重写日志标签名默认Promtail会导出Pod中的一些元数据,可以通过访问Promtail的web界面,获取可以拿到的原始标签#获取promtailPod的PodIP地址kubectlgetpo-A-owide|greppromtail#输出#lokipromtail-s2c2x......
  • CDP 技术系列(二):ClickHouse+Bitmap 实现海量数据标签及群体组合计算
    一、背景介绍上一篇文章介绍了CDP中,面对单个标签或群体数十亿的数据如何存储我们都知道数据仓库的概念,它的里边存储了我们所有的数据,其中就包含了标签或群体所依赖的数据,但是这些数据并不能直接拿来使用,想要变成业务需要的标签或群体数据,还需要进行加工。数据工程师将数仓里的......
  • CDP技术系列(一):使用bitmap存储数十亿用户ID的标签或群体
    一、背景介绍CDP系统中目前存在大量由用户ID集合组成的标签和群体,截止当前已有几千+标签,群体2W+。大量的标签都是亿级别数据量以上,例如性别、职业、学历等均,甚至有群体中的ID数量达到了数十亿+。并且随着用户ID池的不断增加,标签和群体本身包含的ID数量也随之增加,如何存储如此多......
  • Uncaught (in promise) ChunkLoadError: Loading chunk commons.xxxxxxxxx failed
    报错信息如下:Uncaught(inpromise)ChunkLoadError:Loadingchunkcommons.pages_index.pages_teacher_indexfailed. (error:http://localhost:3000/_nuxt/commons.pages_index.pages_teacher_index.js)发生情景:打开多标签时,Nuxt程序崩溃:我有一个vue、nuxt应用程序......
  • a标签下载文件 带token
    constdownloadfile=(url,token)=>{constheaders=newHeaders();headers.append('Authorization',token);//设置token//发起Fetch请求fetch(url,{method:'GET',headers:headers,}).then(res=>res......
  • input标签不同的type属性值:password、text、checkbox、button、radio
    input标签用于搜集用户信息根据不同的type属性值,输入字段拥有很多形式。输入字段可以是文本字段、复选框、掩码后的文本控件、单选按钮、按钮等等。type属性:button:定义可点击的按钮checkbox:定义复选框file:定义输入字段和“浏览”按钮hidden:定义隐藏的输入字段。image:定......
  • input聚焦,label上移效果
    有一个输入框,有一行lable提示文案,当输入框聚焦,文案上移<divclass="input-area"><inputtype="text"class="__input"required/><labelfor=""class="__tip">Input...</label></div>.input-ar......