首页 > 其他分享 >异常检测专栏(二):评价指标及常用数据集

异常检测专栏(二):评价指标及常用数据集

时间:2023-05-12 13:33:24浏览次数:71  
标签:异常 检测 样本 专栏 图像 评价 数据 CV

前言 在上一篇推文中,我们认识到关于异常检测几种术语的概念和区别,并用一个广义OOD来描述异常检测的相关问题。此外,我们还了解到异常检测的相关应用、发展历程和当前异常检测技术的难点。本篇推文将继续回顾异常检测的基础概念,主要包括异常检测的评估指标和常用数据集。

本教程禁止转载。同时,本教程来自知识星球【CV技术指南】更多技术教程,可加入星球学习。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

目录

  • 常用数据集
    • MINIST
    • CIFAR-10
    • ImageNet
    • MVTec AD
    • Retinal OCT
  • 异常检测的评价指标
    • (1)TPR & FPR
    • (2)AUC-ROC
    • (3)AUPR
    • (4)Accuracy
    • (5)F-score
  • 下篇预告

常用数据集

异常检测常用的数据集主要包含:CIFAR-10/100、ImageNet、MNIST、MVTec AD、Retinal-OCT等。

MINIST

MNIST数据集下载链接

MNIST数据集是一个手写数字数据库,包含60000章28x28像素的训练图像和10000张测试图像,用于训练和测试基于图像的机器学习算法和深度学习算法。MNIST是深度学习领域中常用的一个经典数据库。

MNIST数据集的部分内容如下图所示:

CIFAR-10

CIFAR-10下载链接

CIFAR-10数据集是Tiny Image的一个子集,包含60000张32x32的RGB图像。这60000张样本被划分为50000张训练样本和10000张测试样本。

CIFAR-10数据集的部分内容如下图所示:

CIFAR-10中的图像被标记为 10 个相互排斥的类别之一:飞机、汽车(但不是卡车或皮卡车)、鸟、猫、鹿、狗、青蛙、马、船和卡车(但不是皮卡车)。每类都有 6000 张图像,每类有 5000 张训练图像和 1000 张测试图像。

ImageNet

ImageNet下载链接

ImageNet 数据集包含超1400万张带注释的图像,涵盖超过2万类的数据。自 2010 年以来,该数据集被用于 ImageNet 大规模视觉识别挑战赛 (ILSVRC),这是图像分类和目标检测的基准。ImageNet现已被广泛应用到深度学习的各个领域。

公开发布的数据集包含一组手动注释的训练图像。还发布了一组测试图像,其中保留了手动注释。ILSVRC 注释属于以下两类之一:

(1) 二进制标签的图像级注释,表示图像中是否存在对象类,例如,“此图像中有汽车”但“没有老虎, ”

(2) 图像中对象实例周围的紧密边界框和类标签的对象级注释,例如,“有一个螺丝刀以位置 (20,25) 为中心,宽度为 50 像素,高度为 30 像素”。

ImageNet数据集的部分内容如下图所示:

MVTec AD

MVTec下载链接

MVTec AD 是一个数据集,用于对侧重于工业检测的异常检测方法进行基准测试。它包含 5000 多张高分辨率图像,分为十五种不同的对象和纹理类别。每个类别包括一组无缺陷的训练图像和一组具有各种缺陷的图像以及无缺陷的图像。

MVTec数据集的部分内容如下图所示:

Retinal OCT

Retinal-OCT下载链接

Retinal OCT包含84,495张X光图像,其中包含CNV、DME、DRUSEN和NORMAL四种类别,其中每一个都与其他存在细微的差别。是医学图像异常检测任务中的一个常用数据集。

Retinal OCR数据集的部分内容如下图所示:

异常检测的评价指标

异常检测的评估指标一般包含以下几种:AUC-ROC曲线、TPR(真正率)和FPR(假正率)、Accuracy(准确率)、AUPR(Precision-Recall曲线下的面积)以及F-score分数。

为彻底理解上述几种评估指标,我们首先介绍混淆矩阵的相关概念

混淆矩阵:混淆矩阵中包含Positive、Negative、True、False的概念,其意义如下。

  • 称预测类别为1的为Positive(阳性),预测类别为0的则为Negative(阴性)
  • 称预测正确的为True(真),预测错误的为False(假)

对以上几个概念进行组合便可产生我们所熟悉的混淆矩阵:

除了以上的数据集之外,异常检测中使用的数据集还包括LSUN、Chest X-Rays、ELKI、OODS等。

(1)TPR & FPR

从混淆矩阵中派生出True Positive Rate(TPR,真正率)和 False Positive Rate(假正率)两个概念,定义为:

观察公式我们可以发现,其实TPR就是TP除以其所在的列和,FPR就是FP除以其所在的列和,二者的意义可理解为:

  • TPR是所有真实类别为1的样本中,预测类别为1的比例(我们希望这个值越大越好,实际上这也是召回率Recall的定义式)
  • FPR是所有真实类别为0的样本中,预测类别为1的比例(我们希望这个值越小越好)

(2)AUC-ROC

  • ROC曲线:是Receiver Operating Characteristic Curve的简称,其横坐标是假正率FPR,纵坐标是真正率TPR。
  • AUC:是Area Under ROC Cure的简称,即ROC曲线下的面积。其意义为,随机从正样本和负样本中各选一个,分类器对于该正样本打分大于该负样本打分的概率。

下图展示了ROC-AUC曲线图:

(3)AUPR

  • PR曲线:横坐标为召回率Recall,纵坐标为精准率Precision,PR曲线完全聚焦为正例。

其中,Precision为精确率(表示真正预测为正样本的样本数占所有预测为正样本的样本数的比例),其定义公式为:

  • AUPR:是Area under the Precision-Recall Curve的简称,这也是一种独立的评价指标。

下图展示了AUPR曲线图:

(4)Accuracy

Accuarcy(准确率)是表示预测正确的样本占所有样本的比例,其定义为:

一般来说,Accuracy的值越高结果越理想。

(5)F-score

F-scroe是精确率Precision和召回率Recall的加权调和平均值。可以综合衡量Precision和Recall,其定义为:

一般来说,F-score的值越高结果越理想。

下篇预告

本篇推文我们介绍了异常检测的常用数据集和评估指标,到现在关于异常检测的基本概念相信大家已有一个整体的框架。接下来,从第三篇推文开始我们将进入专栏的第三部分:传统的异常检测方法。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

穿越时空的智慧:经得起时间考验的深度学习理念

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

目标检测中的框位置优化总结

CVPR'23|向CLIP学习预训练跨模态!简单高效的零样本参考图像分割方法

大模型微调项目 / 数据集调研汇总

CVPR23 Highlight|拥有top-down attention能力的vision transformer

视觉定位领域专栏(三)算法评估方法总结

视觉定位领域专栏(二)常用数据集介绍

视觉定位领域专栏(一)领域介绍、应用场景和研究难点

语义分割专栏(二)复习FCN的编解码结构

语义分割专栏(一)解读FCN

CUDA 教程(三)CUDA C 编程简介

目标跟踪(二)单、多目标跟踪的基本概念与常用数据集

【CV技术指南】咱们自己的CV全栈指导班、基础入门班、论文指导班 全面上线!!

即插即用模块 | RFAConv助力YOLOv8再涨2个点

CVPR 2023|21 篇数据集工作汇总(附打包下载链接)

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

LargeKernel3D:在3D稀疏CNN中使用大卷积核

ViT-Adapter:用于密集预测任务的视觉 Transformer Adapter

CodeGeeX 130亿参数大模型的调优笔记:比FasterTransformer更快的解决方案

分割一切还不够,还要检测一切、生成一切,SAM二创开始了

CVPR 2023 深挖无标签数据价值!SOLIDER:用于以人为中心的视觉

SegGPT:在上下文中分割一切

上线一天,4k star | Facebook:Segment Anything

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

标签:异常,检测,样本,专栏,图像,评价,数据,CV
From: https://www.cnblogs.com/wxkang/p/17393846.html

相关文章

  • 低压无感BLDC方波控制方案 反电动势和比较器检测位置 带载满载启动!
    低压无感BLDC方波控制方案反电动势和比较器检测位置带载满载启动!1.启动传统三段式,但是我强拖的步数少,启动很快,基本可以做到任意电机启动切闭环。2.入门方波控制的程序和原理图,方案简单,可移植。3.需要更多功能的:如电感法初始位置检测,双闭环控制,同步整流等特殊功能的加好友我!程序......
  • 直流无感无刷电机方波控制!初始位置检测! 1.代码方
    直流无感无刷电机方波控制!初始位置检测!1.代码方便修改和移植,不是库!2.方案:ADC和比较器,ADC检测完位置强拖,比较器检测完位置直接切闭环运行。3.控制方式:开环/速度环/双闭环4.通信:串口5.保护:欠压保护/软件过流保护/硬件过流保护/过温保护/缺相保护6.启动方式:三段式和电感法。7.硬件上......
  • 第4章 键盘的检测原理及应用实现
    第4章 键盘的检测原理及应用实现 非编码键盘:独立键盘和行列式键盘。独立键盘检测 常见的按键:弹性小按键,贴片式按键,自锁式按键。单片机检测按键的原理:单片机的I/O即可作输出也可作输入,当检测按键时,用它的输入功能,把按键的一端接地,另一端接IO,开始时,给IO赋高电平,然后不断......
  • BEV专栏(一)从BEVFormer深入探究BEV流程(上篇)
    前言 本文提出了一种基于Transformer和时间结构的Bird's-Eye-View(BEV)编码器,称为BEVFormer。该编码器可以有效地聚合来自多视角摄像机和历史BEV特征的时空特征。本教程禁止转载。同时,本教程来自知识星球【CV技术指南】更多技术教程,可加入星球学习。欢迎关注公众号CV技术指南,专注......
  • LSTM算法做时间序列的预测,使用matlab自带的LSTM工具箱函数,预测精度很高,网络参数最优化
    LSTM算法做时间序列的预测,使用matlab自带的LSTM工具箱函数,预测精度很高,网络参数最优化处理,误差评价指标计算。ID:6768660696244807......
  • 拉普拉斯图像融合,基于sobel算子的边缘检测,PCA人脸识别,SIFT图像配准,分形维数计算,数字图
    拉普拉斯图像融合,基于sobel算子的边缘检测,PCA人脸识别,SIFT图像配准,分形维数计算,数字图像水印,霍夫变换做直线检测,人脸纹理识别,伪彩色增强,图像增强,图像分割,特征提取,字符分割,各种GUI,等等各种跟图像处理有关的程序。ID:1360615396171857......
  • Delphi 检测密码强度 规则(仿 google)
    一、密码长度:5分:小于等于4个字符10分:5到7字符25分:大于等于8个字符二、字母:0分:没有字母10分:全都是小(大)写字母20分:大小写混合字母三、数字:0分:没有数字10分:1个数字20分:大于等于3个数字四、符号:0分:没有符号10分:1......
  • 高频方波电压注入的的PMSM转子初始位置检测 1.方波电压和
    高频方波电压注入的的PMSM转子初始位置检测1.方波电压和正负脉冲电压相结合实现永磁同步电机转子初始位置检测;2.提供算法对应的参考文献和仿真模型,支持技术解答。仿真模型纯手工搭建,不是从网络上复制得到。仿真模型仅供学习参考ID:9968676117451227......
  • 团队绩效评价
    第一名:李瑞鹏第二名:粘艺凡第三名:李佳岳李佳岳:界面的完成登录和注册等等粘艺凡:完成教师评价和观看队伍信息,下载队伍信息等等李瑞鹏:完成学生信息的上传、修改、添加和优化界面等功能。我们团队按照分工、完成度、目标完成度、积极性、工作态度进行绩效评估。 ......
  • 评价数据质量测试的业务价值
    评价数据质量测试的业务价值,需要从以下几个方面考虑:数据质量的重要性:数据作为企业最重要的资产之一,对企业的业务决策、客户体验、营销效果等方面都有着深远的影响。因此,数据质量的问题可能导致企业业务的停滞甚至失败,从而造成重大的经济损失。通过数据质量测试可以发现数据的问......