首页 > 其他分享 >主动学习和半监督学习 - 调研总结

主动学习和半监督学习 - 调研总结

时间:2022-10-08 12:08:14浏览次数:70  
标签:总结 主动 学习 监督 learning 调研 数据 标注



前言

我的第一篇半监督论文(投了篇ccf b的trans),因为第二次小修没改好,第三次小修审稿人在最后一条意见中问了一个personal question:

A personal question: What is the difference between your approach and active learning? Can it be applied to the active learning strategy?

所以有了这么一篇关于主动学习的调研,如有问题,欢迎交流、批评、指正!

什么是主动学习?

在2009年的这篇综述 Active learning literature survey(2022年引用6000+)中有这一一段解释:

  The key idea behind active learning is that a machine learning algorithm can achieve greater accuracy with fewer labeled training instances if it is allowed to choose the data from which is learns. An active learner may ask queries in the form of unlabeled instances to be labeled by an oracle (e.g., a human annotator).

主动学习(Active Learning)的大致思路就是:通过机器学习的方法获取到那些比较**“难”分类的样本数据,让人工再次确认和审核**,然后将人工标注得到的数据再次使用有监督学习模型或者半监督学习模型进行训练,逐步提升模型的效果,将人工经验融入机器学习的模型中。

可以看到主动学习侧重于:挖掘难例样本和人工标注或再次标注(注意这里的数据可以是标注的和未标注的)

形象地例子:

用一个例子来比喻,一个高中生通过做高考的模拟试题以希望提升自己的考试成绩,那么在做题的过程中就有几种选择。一种是随机地从历年高考和模拟试卷中随机选择一批题目来做,以此来提升考试成绩。(常规有监督学习)但是这样做的话所需要的时间也比较长,针对性也不够强;另一种方法是每个学生建立自己的错题本,用来记录自己容易做错的习题(难例挖掘),反复地巩固自己做错的题目,通过多次复习自己做错的题目来巩固自己的易错知识点,逐步提升自己的考试成绩。其主动学习的思路就是选择一批容易被错分的样本数据,让人工进行标注,再让机器学习模型训练的过程。

和半监督学习的异同

**半监督学习:**属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。半监督学习主要考虑使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。

主动学习和半监督学习的相同之处:

二者都利用了有标注数据和无标注数据来提高模型的学习能力。

主动学习和半监督学习的差异之处:

主动学习侧重于寻找尽可能少的难例,在利用未标注数据的时候,是从未标注数据中找到最容易判断错误的样例来交由专家进行标注,这个过程是一个筛选差数据的过程,也是一个互动交互的过程,引入了额外的专家的知识。

半监督学习侧重于寻找尽可能多的好样本,尤其是对于自学习模型,对于未标注数据而言,是选择最不容易判断错误的样例来加入到已标注数据中,这个过程,是一个自动的过程,是筛选最好的数据的过程,然后不需要互动,不需要人工干预,基于自身对于未标记数据加以利用,来提高学习模型的泛化性能。

展望

主动学习和半监督学习存在一定的相似之处,但他们本质上是两种不同的探索和利用样本的方法。近些年也出现很多将两者结合的工作如 BoostMIS,因此基于两者的共通之处进行探索和改进仍然具备一定的潜力。

参考:

Settles B. Active learning literature survey[J]. 2009.

Zhang, Wenqiao, et al. "BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive Pseudo Labeling and Informative Active Annotation."arXiv preprint arXiv:2203.02533(2022).

​https://zhuanlan.zhihu.com/p/239756522​

​https://baike.baidu.com/item/%E5%8D%8A%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0/9075473​



标签:总结,主动,学习,监督,learning,调研,数据,标注
From: https://blog.51cto.com/u_12630471/5737136

相关文章

  • 第六周学习总结 2022-2023-1 20221407 姚博茗
    第六周学习总结作业信息班级2022-2023-1-计算机基础与程序设计作业要求第六周作业这个作业的目标第六周作业作业正文见下教材内容总结《C语言程......
  • 动手学深度学习:机器翻译
    《动手学深度学习》的最后一篇文章,在这篇文章里,将学习什么是编码器解码器的结构,什么是束搜索,以及注意力机制是什么,最后就是仔细地研究一下课本中最后一个机器翻译的代码实......
  • Java学习之路:Dos命令
    2022-10-08 10:25:42(一)打开CMD的方式开始+系统+命令提示符Win+R 输入cmd打开控制台在任意的文件夹下面,按住Shift+鼠标右键,点击在此打开命令行窗口资源管理器的地......
  • (九)模仿学习-动态更改大屏数据
    我们通过前面的练习,完全可以完成一个返回页面的操作。首先我们准备一个action并在struts.xml中添加。创建action我们先什么数据都不返回,只返回一个页面在application......
  • 2022-2023-1 20221307 《计算机基础与程序设计》 第六周学习总结
    教材学习内容总结Polya解决问题的方法:1.理解问题2.找到数据与未知数的关系(辅助问题)3.执行方案4.分析解决方案简单类型与组合类型:组合类型:指能够表示多个数据的类型复合数......
  • 学习PLC的15个基础
    从事电力作业的人员都知道,工业生产和科技的发展都离不开PLC的自动化控制,PLC可以广义的理解为:集中的继电器延伸控制柜,实际的生产应用中,PLC大大的节省了工业控制的成本,加强了......
  • unityshader学习笔记4
    顶点/片元着色器的基本结构:Shader"Custom/SimpleShader"{  SubShader{    Pass{      CGPROGRAM      #pragmavertexve......
  • dayjs学习笔记
    dayjs官网:https://dayjs.fenxianglu.cn/category/parse.html一、安装     npminstalldayjs--save二、引用     importdayjsfrom'dayjs'  Da......
  • C#学习第三天
      今天进行了C#的第三次学习,继续了解C#的相关知识:目录数组多维数组交错数组传递数组给函数参数数组Array类数组  声明数组并初始化的格式为Java还有C++中常用的方......
  • 狂神说学习笔记:Vue
    Vue1、概述Vue(读音/vjuː/,类似于view)是一套用于构建用户界面的渐进式JavaScript框架,发布于2014年2月。与其它大型框架不同的是,Vue被设计为可以自底向上逐层应用......