首页 > 其他分享 >无监督预训练

无监督预训练

时间:2022-08-30 06:56:02浏览次数:82  
标签:编码器 训练 标记 学习 监督 使用

无监督预训练

抽象的

在不依赖注释的情况下使用卷积神经网络预训练通用视觉特征是一项具有挑战性且重要的任务。最近在无监督特征学习方面的努力都集中在像 ImageNet 这样的小型或高度精选的数据集上,而在对迁移任务进行评估时,发现使用非精选的原始数据集会降低特征质量。

介绍

假设您要处理一项没有太多标记训练数据的复杂任务,但不幸的是,您找不到在类似任务上经过训练的模型(预训练模型)。

不要失去所有的希望!首先,您当然应该尝试收集更多带标签的训练数据,但如果这太难或太昂贵,您可能仍然能够执行无监督预训练(参见图 1)

Figure 1. Unsupervised pretraining

收集未标记的训练示例通常相当便宜,但标记它们却非常昂贵。如果你能收集到大量未标记的训练数据,你可以尝试一层一层地训练,从最低层开始,然后向上,使用无监督的特征检测算法,如受限玻尔兹曼机或自动编码器

自动编码器

自编码器是一种人工神经网络,用于以无监督的方式学习数据编码。

自动编码器的目的是通过训练网络捕获输入图像的最重要部分(图 2)来学习高维数据的低维表示(编码),通常用于降维。

Figure 2. Autoencoder

脚步

每一层都在先前训练的层的输出上进行训练(除了正在训练的层之外的所有层都被冻结)。一旦以这种方式训练了所有层,您就可以为您的任务添加输出层,并使用监督学习(即使用标记的训练示例)微调最终网络。此时,您可以解冻所有预训练的层,或者只解冻一些上面的层。

这是一个相当漫长而乏味的过程,但通常效果很好;事实上,Geoffrey Hinton 和他的团队在 2006 年使用的正是这种技术,它导致了神经网络的复兴和深度学习的成功。直到 2010 年,无监督预训练(通常使用 RBM)是深度网络的规范,只有在梯度消失问题得到缓解之后,纯粹使用监督学习训练 DNN 才变得更加普遍。

然而,当你有一个复杂的任务要解决、没有类似的模型可以重用、标记的训练数据很少但有大量的未标记的训练数据时,无监督预训练(今天通常使用自动编码器而不是 RBM)仍然是一个不错的选择。

结论

即使标记数据很少,迁移学习和无监督预训练也可以帮助我们处理复杂的任务。

检查那里的代码 Github

参考

在非精选数据上对图像特征进行无监督预训练

使用 Scikit-Learn 和 TensorFlow 进行机器学习

无监督预训练

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/1596/41183006

标签:编码器,训练,标记,学习,监督,使用
From: https://www.cnblogs.com/amboke/p/16637995.html

相关文章

  • 自我监督学习
    自我监督学习自监督学习(SSL)正在迅速缩小与监督方法的差距。最近,拓宽自我监督学习视野的主要参与者之一FacebookAIResearch(FAIR)引入了SEER。SEER是一个1.3B......
  • "蔚来杯"2022牛客暑期多校训练营10 E.Reviewer Assignment
    E.eviewerAssignment题目大意有m篇论文和n个审稿人,给出每个审稿人能审论文的集合,要求给没个审稿人安排一篇论文。令f(i)表示被至少i个审稿人审过的论文数量,要求求出一种......
  • pytorch多卡训练DDP卡死问题排查
    背景单机多卡并行模型训练,使用DistributedDataParallel加速,调用超过一个GPU会发生卡死,表现为GPU0占用100%且无法继续。排查使用nvtop工具查看,发现GPU0会被分配nproc_per......
  • 8.27训练赛(2018-2019, ICPC, Asia Yokohama Regional Contest 2018,gym102082)
    B一开始开题的时候想假了,以为用map存差的结果贪心就行了,实际上是一个比较妙的dp,用到了一个结论:两项就唯一确定一个等差数列。设\(f[i,j]\)表示最后两个数选了\(a_i\),\(a......
  • 预训练模型简要介绍
    从字面上看,预训练模型(pre-trainingmodel)是先通过一批语料进行训练模型,然后在这个初步训练好的模型基础上,再继续训练或者另作他用。这样的理解基本上是对的,预训练模型的训......
  • 学习:python 综合训练 超市商品管理系统 数据库版
                 ......
  • 论文推荐:使用带掩码的孪生网络进行自监督学习
    最近自我监督学习被重视起来。昨天我通过LinkedIn发现了这项工作,我觉得它很有趣。kaiming大神的MAE为ViT和自监督的预训练创造了一个新的方向,本篇文章将介绍MaskedSiamese......
  • 蔚来杯2022牛客暑期多校训练营10 题解
    D.MiReDoSiLa?SoFa![NOI2016]优秀的拆分原题。枚举周期\(k\),并将位置为\(k\)的倍数的点设为关键点。枚举相邻两个点\(i,i+k\),并求出\(lcp(S[i...n],S[i+k......
  • 监督学习集成模型——LightGBM
    LightGBM的全称为LightGradientBoostingMachine,即轻量的梯度提升机,由微软在其论文“LightGBM:AHighlyEfficientGradientBoostingDecisionTree”中提出,作为与XGBo......
  • python综合训练二 图书管理系统
    宝安小学图书馆开馆了,准备开发一个图书管理系用json模拟数据库的方式完成下列业务:1、用户登录2、显示图书列表3、图书上架4、图书下架5、借书6、还书7.退出a.使用......