首页 > 其他分享 >分类

分类

时间:2024-09-18 20:35:20浏览次数:7  
标签:frac text 模型 分类 TP 召回

与输出连续数值的回归模型不同,分类模型的输出是类别(category)。常见分类做法是通过设定阈值(threshold),若逻辑回归的输出大于(或等于,取决于实现方式)阈值时判定为正例,否则为反例。根据输出标签的种数又可以将分类模型划分为二元分类(Binary Classification)与多分类。

分类输出结果不一定是每次都100%正确,可以通过混淆矩阵(Confusion Matrix)统计模型预测正误情况。对于二元分类模型,后者包括:True Positive、True Negative、False Positive和False Negative,常用其首字母缩写。当分类阈值固定时,利用它们可以构造一系列的分类模型的评价指标(Metrics):

  • 准确率:$\text{Accuracy} =\frac{\text{correct classifications}}{\text{total classifications}}= \frac{TP+TN}{TP+TN+FP+FN}$。评估模型性能时,最好与其他指标结合使用。当数据集的各类别数量均衡时,准确率可以作为粗略的质量指标。因此,常用于衡量通用、非特定模型的性能。然而,当数据集高度不均衡,或者一种错误的代价比另一种的高时,不适用该指标。
  • 召回率(Recall)或检测率:$\text{Recall (or TPR)} =\frac{\text{correctly classified actual positives}}{\text{all actual positives}}= \frac{TP}{TP+FN}$关于它的适用范围,Google作出了自相矛盾的表述。在召回分类:召回率指标中,
In an imbalanced dataset where the number of actual positives is very, very low, say 1-2 examples in total, recall is less meaningful and less useful as a metric.

  在Recall中,点击图标查看分类不平衡数据集的备注:

召回率特别适合用于评估正类别很少的分类模型。

对于分类不平衡的数据集,召回率是比准确率更为有用的指标。

  • 误报概率(FPR):$\text{FPR} =\frac{\text{incorrectly classified actual negatives}}{\text{all actual negatives}}= \frac{FP}{FP+TN}$在一个不均衡的数据集内,实际负例的数量假设总共有1-2个样本,则 FPR 作为评估指标没什么意义和实用性。
  • 精确率(Precision):$\text{Precision} =\frac{\text{correctly classified actual positives}}{\text{everything classified as positive}}= \frac{TP}{TP+FP}$与召回率变化方向相反。在一个不均衡的数据集内,实际正类别的样本数量假设为 1-2 个,那么精确率作为指标没啥意义,实用性也没那么高。
  • F1得分(F1 Score):精确率和召回率的调和平均值:$\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}}  = \frac{2\text{TP}}{2\text{TP + FP + FN}}$可以看出,当精确率和召回率相近时,F1也与之相近;当二者差距加大时,F1接近较差的其一。用于不均衡数据集时,比准确率更好。

 如果想评估在所有可能的分类阈值下模型质量,则可以使用这些指标:

  • 接收者操作特征曲线 (ROC):是模型在所有阈值上的表现的可视化展示。横轴代表FPR,纵轴代表TPR,完美模型表示为点(0,1)。曲线上最接近点(0,1)的点通常代表最合适的阈值。最初用于二战雷达侦测。

  • 曲线下方面积(AUC):ROC曲线下方的面积,表示如果给定一个随机选择的正类别和一个随机选择的负类别样本,模型对正样本的逻辑输出大于对负样本的输出的概率。很好地适用于大致均衡的数据集。

对于不均衡的数据集,最好用精确率-召回率曲线(PRCs)及该线下方面积来可视化模型性能。

如果每个样本只能归到一类(不一定是同一类),多分类问题可以转化为多个二元分类问题。如果每个样本的类别不是唯一的,这种问题称为多标签分类问题。

预测偏差:代表模型预测的均值与标签均值的偏差。可以标记模型或训练数据中存在的问题,还可用于线性回归。当预测偏差过大时,考虑以下问题:

  • 数据中的偏差或噪声,包括训练集的非均匀采样;
  • 正则化过强,意味着模型过度简化;
  • 模型训练pipeline中的 bug;
  • 提供给模型的特征集合不足以完成任务

标签:frac,text,模型,分类,TP,召回
From: https://www.cnblogs.com/ArmRoundMan/p/18415104

相关文章

  • 数据挖掘实战-基于朴素贝叶斯算法构建真假新闻分类模型
     ......
  • zblog静态分类目录访问出现403错误
    当使用Z-Blog静态化分类目录后出现403错误,这通常意味着服务器拒绝了访问请求,可能是由于权限设置不当、Web服务器配置错误或其他安全限制导致的。以下是针对不同情况的一些常见解决方案。1.检查文件和目录权限问题描述:文件或目录权限设置不正确可能导致403错误。解决方......
  • 10 分类图与设计类图
    分析类图与设计类图是软件开发过程中不同阶段使用的两种重要工具,它们之间存在明显的区别。以下是对这两种类图区别的详细阐述:一、定义与目的分析类图:定义:在需求分析阶段,类图主要用于描述应用领域中的概念。类图中的类从领域中得出,即这些类是从需求中获取的。目的:分析类图的......
  • 解决ZBLOG分类无法访问或者不正常
    当遇到Z-Blog分类无法访问或者不正常的情况时,可以按照以下几个方面来排查问题:1.检查伪静态设置问题描述:伪静态规则配置错误。解决方法:登录Z-Blog后台,进入伪静态设置页面。确认伪静态规则是否正确配置,尤其是针对分类的规则。重建伪静态规则,并重新生成静态页面。2.......
  • zblog静态分类目录访问出现403错误解决方法
    当使用Z-Blog静态化分类目录时出现403错误,这意味着服务器拒绝了请求,通常是由于权限问题或其他配置问题。以下是解决此问题的一些步骤:检查文件权限:确认文件或目录具有正确的权限。通常文件权限应设置为644,目录权限应设置为755。使用FTP客户端连接到服务器,检查分类目......
  • GEE 案例:利用UCSB-CHG/CHIRPS/DAILY数据采用非监督分类实现某区域的降水区域的划分
    目录简介数据函数ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Arguments:Returns: Clusterer代码结果简介利用UCSB-CHG......
  • 使用随机森林模型在digits数据集上执行分类任务
    程序功能使用随机森林模型对digits数据集进行手写数字分类任务。具体步骤如下:加载数据:从digits数据集中获取手写数字图片的特征和对应的标签。划分数据:将数据集分为训练集和测试集,测试集占30%。训练模型:使用随机森林算法训练分类模型。进行预测:使用训练好的模型对测试......
  • 1.3 计算机网络的分类
    欢迎大家订阅【计算机网络】学习专栏,开启你的计算机网络学习之旅!文章目录前言一、按分布范围分类二、按传输技术分类三、按拓扑结构分类四、按使用者分类五、按传输介质分类前言计算机网络根据不同的标准可以被分为多种类型,本章从分布范围、传输技术、拓扑结构、......
  • [独家原创]基于(鳑鲏鱼)BFO-Transformer-GRU多特征分类预测【24年新算法】 (多输入单输
    [独家原创]基于(鳑鲏鱼)BFO-Transformer-GRU多特征分类预测【24年新算法】(单输入单输出)你先用你就是创新!!!(鳑鲏鱼)BFO优化的超参数为:隐藏层节点数、正则化系数、初始化学习率1.程序已经调试好,无需更改代码替换数据集即可运行!!!数据格式为excel!2.Transformer作为一种创新的神......
  • JPEGWD数据集,焊接缺陷检测NDT专用数据集RGB钢板焊缝缺陷识别任务和分类任务数据集(JPEG
    项目背景:焊接是制造业中的关键工艺之一,焊接质量的好坏直接影响到产品的安全性和可靠性。焊接缺陷检测(Non-DestructiveTesting,NDT)是确保焊接质量的重要手段。传统的焊接缺陷检测方法依赖于人工目视检查,效率低下且易受主观因素影响。近年来,随着计算机视觉技术的发展,基于机器......