首页 > 其他分享 >机器学习的致命缺陷之负样本识别问题

机器学习的致命缺陷之负样本识别问题

时间:2022-12-13 20:23:04浏览次数:44  
标签:10 致命 模型 样本 可能 图像 识别 之负

当我们做一个分类问题时,比如手写数字识别,识别的是 0-9 几种数字。前提是给的就是 0-9 的测试样本,那我们如果给模型一个手写的 x ,显然它依旧会把 x 归为 0-9 的某个类别,可能还会输出一个较大的概率。

那我们训练机器学习时候怎么做的呢?首先,我们收集这 10 类的样本,使用有监督学习的方式训练一个模型。这里有个重要的概念:正负样本。正样本其实就是某个类的那些图像,比如都是 0 的图像。那么 其他类的图像 ,即 1-9 的图像加一起是该类的负样本。如果我们的场景是一个封闭集的识别问题,即假设所给的数据肯定是 0-9 这些数字图像,那么该模型是没有问题的。但是如果给了一张手写的 x 的图像呢?那么 负样本的定义就是不完备的因为缺失其他负样本的信息,这就可能导致 模型对 x 的判定不确定。因为常用 softmax 输出一个概率向量,理想情况下,模型应该输出 10个 0.1 ,表示模型不知道 x 属于哪一类。但是理想往往是不可及的,模型可能会输出一个较大的概率,我们通过阈值就把 x 归于了那个类别。

如果我们训练 10 个二分类器呢?显然,同样负样本也是不完备的。

那么我们加入一些负样本数据呢?这就带来许多问题?加入什么数据?加多少这些数据?

  1. 是把收集的那些负样本数据放到新的类中,变成 11 类分类问题呢?
  2. 还是 训练 10 个分类器,把它们都放在负样本中?这时负样本还包含 其它 9 类的数据。
  3. 还是先训练一个 异常检测的二分类模型,把这 10 个类的数据当作正样本,收集的那些负样本数据当作负样本呢?

这些对于我都是感觉困难的问题。因为异常样本可能是难以收集的,数量应该选择放多少可能也是困难的。

“机器学习模型懂得说不” 确实是一个麻烦的问题!

同样,对于目标检测问题,该问题也是存在的。我们常常在测试模型中会遇到误识别的问题。即把一个无关的区域识别为目标。显然目前的目标检测算法也是基于正负样本的。比如基于 anchor 的算法,与标注框重叠小的 anchor 就是负样本,这些可能是背景图像,可能只有一点目标的区域。显然,目标检测的负样本比分类任务的正样本要多多了,因为整个图像的某些区域可能都是负样本。可能这种方式使得通过检测模型得到的结果要比直接把图像丢进去分类,会把更少的负样本识别为正样本。但是,CNN 到底是基于什么来识别目标呢?这可能还没有定论,有人说是基于纹理,那么纹理类似的目标就可能被识别为正样本,比如把 老虎识别为猫?那么我们有什么解决方案吗?

  1. 把误识别的样本复制到带有正样本的某些区域中,而它们是没有标签的。但是问题是,这些误识别的样本怎么收集(需要不停的测试工作)?这可能需要不停的迭代模型,每次都微调模型吧。

copy-paste 方法有效吗?即把正样本贴到某些背景图中,我理解的该方法增加了负样本的多样性,可能能解决部分背景误识别为目标的问题。对于把猫分为狗这种问题可能并没有帮助。换句话说,就是给定一个属于预定义类别的图像,模型该错的还是错。这种方式如果负样本加的过多,可能偏离真实应用场景了,可能使得模型偏向预测为负样本。

标签:10,致命,模型,样本,可能,图像,识别,之负
From: https://www.cnblogs.com/odesey/p/16980514.html

相关文章

  • 我为 OpenAI ChatGPT 生态处理一个致命 BUG 的经过
    最近的ChatGPT应该不用我多说了,不过避免有朋友还没收到相关推送,我还是简单介绍两句:了解ChatGPTChatGPT是OpenAI的一个产物,是继GPT-3.5系列的主力模型之一,这一模......
  • 深度学习炼丹-不平衡样本的处理
    目录​​前言​​​一,数据层面处理方法​​​1.1,数据扩充​​​1.2,数据(重)采样​​​数据采样方法总结​​​​1.3,类别平衡采样​​​二,算法(损失函数)层面处理方法​​​2.1,Fo......
  • 深度学习炼丹-不平衡样本的处理
    前言一,数据层面处理方法1.1,数据扩充1.2,数据(重)采样数据采样方法总结1.3,类别平衡采样二,算法(损失函数)层面处理方法2.1,FocalLoss2.2,损失函数加权参考资料......
  • 深度学习炼丹-不平衡样本的处理
    前言一,数据层面处理方法1.1,数据扩充1.2,数据(重)采样数据采样方法总结1.3,类别平衡采样二,算法(损失函数)层面处理方法2.1,FocalLoss2.2,损失函数加权参考资料......
  • RNA-seq 详细教程:样本质控(6)
    学习目标了解计数数据变换方法的重要性了解PCA(principalcomponentanalysis)了解如何使用PCA和层次聚类评估样本质量1.质控DESeq2工作流程的下一步是QC,其......
  • 为什么样本方差是除以 n-1 而不是 n?
    摘自https://www.zhihu.com/question/20099757/answer/13971886https://www.zhihu.com/question/20099757/answer/13971898https://blog.csdn.net/Hearthougan/article/d......
  • Google Analytics增加访问统计样本
    有的时候,GoogleAnalytics统计的页面速度的样本比较少,比如只有1个,如果想增加GoogleAnalytics增加访问统计样本,可以这样:_gaq.push(['_setSiteSpeed......
  • springcloud之负载均衡策略
    Ribbon内置了多种负载均衡策略,内部负责负载均衡的顶级接口为com.netflix.loadbalanced.IRule  服务消费者,application.yml中添加#修改ribbon的负载均衡策略服务名-......
  • 拓端tecdat|R语言编程指导在不同样本量下的Little's MCAR检验
    R语言在不同样本量下的Little'sMCAR测试​ 我进行一个小型仿真,以在不同样本量下测试Little的MCAR检验1。我可以研究线性回归中的异方差。我能够找......
  • 06 样本及抽样分布 | 概率论与数理统计
    1.随机样本1.总体与个体总体:研究对象的全体,即试验的全部可能观察值称为总体个体:总体当中的每个对象,总体中的每个可能观察值成为个体容量:总体中所包含的个体的个数称......