首页 > 其他分享 >机器学习评价指标总结(多分类篇)

机器学习评价指标总结(多分类篇)

时间:2023-08-27 23:36:16浏览次数:34  
标签:总结 分类 机器 模型 样本 指标 类别 评价 平均

目录

在机器学习的多分类任务中,我们常常需要评价模型在多个类别上的表现。对于多分类任务来说,主要有两种处理方法:直接作为多分类任务和转化为二分类任务。以下我们会从相应的处理方法出发,介绍多分类任务的评价指标。

多分类任务

直接作为多分类任务

一种常见的方法是将多分类问题视为一个整体,使用一个模型同时处理所有类别。模型的输出通常是一个包含所有类别的预测概率分布,从中选择最高概率的类别作为预测结果。在测试时,我们直接使用模型的输出来预测样本的类别,即选择具有最高概率的类别作为最终的预测结果。

直接训练一个多分类模型可能面临一些问题:

  1. 类别不平衡问题:在直接训练多分类模型中,不同类别的样本数量可能存在不平衡,导致模型在预测时更偏向于出现频率较高的类别,而忽略了其他类别。

  2. 复杂关系:在某些情况下,类别之间可能存在复杂的关系,使得单一的多分类模型难以有效地捕捉这些关系。

转换化为二分类任务

另一种常见的处理方法是转化为二分类任务,分别有两种策略:一对多策略与一对一策略。

一对多策略(One-vs-Rest,OvR)

在 OvR 策略中,对每个类别会训练一个独立的二分类模型。每个模型被训练来区分一个特定的类别与其他所有类别的组合。

训练过程中,每个类别的模型将其正样本标记为正类,而其他所有类别的样本标记为负类。

在预测时,对于一个新样本,每个模型都会给出一个预测概率或类别标签。最终,样本被分配给具有最高预测概率的类别。

一对一策略(One-vs-One,OvO)

相比之下,OvO 策略更为复杂。在这种策略下,每两个不同的类别之间都训练一个独立的二分类模型。

例如,如果有 N 个类别,那么需要训练 N(N-1)/2 个模型。训练过程中,每个模型的目标是将两个特定的类别区分开。

在预测时,每个模型都对样本进行预测,得到 N(N-1)/2 个预测结果。最终,通过对所有模型的预测结果进行投票或者采取某种规则来决定样本所属的类别。

两种策略的比较

OvR 策略的优势在于训练速度相对较快,因为每个模型只需处理一个类别。然而,它可能会受到类别不平衡问题的影响,因为每个模型的样本分布可能不同。

OvO 策略需要训练更多的模型,但它对于类别不平衡的情况更加稳健,因为每个模型只关注两个类别,样本分布相对平衡。

在预测速度上,OvR 策略需要计算所有模型的预测结果,而 OvO 策略只需要计算相关类别之间的模型预测结果。

基础指标

评价指标的计算方法在两种方法中有一些差异,但它们都提供了对模型性能的有效度量,用于评估模型在多分类任务中的表现。具体选择哪种方法取决于任务需求、数据特点以及模型训练的策略。

对于直接对多个类别进行预测的多分类模型,准确率和混淆矩阵评价模型性能常用的指标,但具体选择也需要根据任务需求和数据特点进行综合考虑。

多分类准确率(Multi-Class Accuracy):计算模型在所有类别上预测正确的样本比例。
混淆矩阵(Confusion Matrix):展示模型在每个类别上的表现,计算各个类别的精确率、召回率、F1分数等评价指标。

对于转换为二分类的多分类模型,我们可以沿用常用的二分类模型的评价指标,包括准确率(Accuracy)、混淆矩阵(Confusion Matrix)、精确率(Precision)、召回率(Recall)、F1分数(F1-Score)等,此处不展开介绍。

综合指标

综合指标能够在全局范围内评估多分类模型的性能。在以上的方法中,我们都可以考虑宏平均、微平均和加权平均这几种方法。宏平均适用于各类别重要性相等的情况,微平均在样本不平衡时表现更稳健,而加权平均考虑了不同类别样本数量的差异。

宏平均(Macro-average)

宏平均计算每个类别的评价指标(如准确率、精确率、召回率、F1分数等),然后对所有类别的指标进行平均。宏平均给予每个类别相同的权重,适用于各个类别的重要性相等的情况。

\[Macro-average = \frac{1}{N} \sum_{i=1}^{N} Metric_i \]

其中,\(N\) 是类别的总数,\(\text{Metric}_i\) 是第 \(i\) 个类别的评价指标。

宏平均不会因为类别样本数量不同而偏向样本较多的类别。它关注每个类别的表现,适用于各个类别的重要性相等或相近的情况。

微平均(Micro-average)

微平均将所有类别的预测结果汇总起来,计算整体的评价指标。对所有类别的预测结果进行统一的计算,适用于类别样本不平衡的情况。以精确率为例,微平均的精确率为:

\[Micro\_P = \frac{\sum_{i=1}^{N} \text{TP}_i}{\sum_{i=1}^{N} \text{TP}_i + \sum_{i=1}^{N} \text{FN}_i} \]

其中,TP表示真正例(True Positive),FN表示假负例(False Negative)。

微平均考虑了所有类别的样本数量,它会更关注样本数量多的类别,因为这些类别会对整体性能有更大的影响。微平均能够反映出模型在处理样本数量不平衡情况下的表现。

加权平均(Weighted Average)

:考虑类别样本数量的不平衡性,对每个类别的指标乘以对应类别的样本数量占总样本数量的比例,然后进行加权平均。这可以反映不同类别的重要性。

\[Weighted-Average = \sum_{i=1}^{N} \left( \frac{\text{Metric}_i \times \text{Samples}_i}{\sum_{i=1}^{N} \text{Samples}_i} \right) \]

其中,Metric表示要计算的评价指标,Samples表示每个类别的样本数量。

加权平均考虑了类别样本数量的不平衡性,对样本较多的类别给予更大的权重,从而更好地反映整体性能。它适用于类别样本数量差异较大的情况。

综合指标的关系

宏平均考虑每个类别的个别表现,并对它们的评价指标(比如准确率、召回率等)进行平均。每个类别被视为同等重要,无论类别的大小或样本数量。

微平均则关注整体表现,它将所有类别的预测结果合并起来,计算一个总的评价指标。在微平均中,每个样本的预测都被视为同样重要,不管它属于哪个类别。

假设我们有一个三类分类任务:A、B 和 C。如果类别 A 有很多样本,而类别 B 和 C 的样本很少,在宏平均中,由于每个类别的指标会平均起来,因此对于这种样本不平衡的情况相对较稳健,不会因为类别A的样本数量多而对其产生特别大的影响。

而在微平均中,每个样本都被视为同等重要,不论它属于哪个类别。因此,样本多的类别会对整体性能产生更大的影响,从而导致微平均对于样本数量较多的类别更为敏感。也就是说,类别A会在微平均中对性能评估产生较大影响,有可能会掩盖其他类别的表现。

在样本不平衡的情况下,引入加权平均会赋予样本多的类别更大的权重,从而在评价指标中更好地体现这些类别的影响。虽然加权平均考虑了每个类别的贡献,但是如果样本非常不平衡的情况下,加权平均反而因为强调了某个类别而加剧样本不平衡问题。

总结

以上介绍的评价指标的选择和使用不依赖于具体的训练策略,它们都可以帮助我们了解整体性能以及各个类别的表现。无论是直接训练多分类模型还是使用多个二分类模型来辅助进行分类,我们都可以使用宏平均、微平均和加权平均来计算评价指标,以得到全局性能的衡量。

标签:总结,分类,机器,模型,样本,指标,类别,评价,平均
From: https://www.cnblogs.com/slowlai/p/17539505.html

相关文章

  • 第七周总结
    本周我深入学习了大数据相关的知识,获得了许多有价值的经验。在这次周总结中,我将分享我学到的一些重要概念、技能以及遇到的挑战和解决方法。首先,我学习了大数据的定义和特点。大数据是指规模庞大、复杂多样且价值密度低的数据集合。区别于传统数据处理方式,大数据需要借助高效的技......
  • 靶机jangow学习总结
    一、安装靶机下载:https://www.vulnhub.com/entry/jangow-101,754/下载后直接VMware打开启动,不过可能会出现没有获取到IP地址,导致后面扫半天也扫不出来信息的情况,可以百度一下,有很多解决办法。二、信息收集1.    ARP探测,看一下靶机获取的IP地址:#arp-scan-l2.    使用nma......
  • 使用 TensorFlow 进行机器学习
    使用TensorFlow进行机器学习这是使用TensorFlow进行机器学习的官方代码存储库。使用TensorFlow(Google最新、最好的机器学习库)开始进行机器学习。概括第2章-TensorFlow基础知识概念1:定义张量概念2:评估操作概念3:互动会话概念4:会话日志记录概念5:变量概念6......
  • Java周总结8
    教材学习内容总结InputStream与OutputStream10.1.1串流设计的概念Java将输入/输出抽象化为串流,数据有来源及目的地,衔接两者的是串流对象。从应用程序角度来看,如果要将数据从来源取出,可以使用输入串流,如果要将数据写入目的地,可以使用输出串流。在Java中,输入串流代表对象为java.io......
  • 高并发实战总结02
    一、秒杀系统......
  • 机器学习 -> Machine Learning (I)
    1机器学习概述1.1定义及应用领域机器学习是一种让计算机通过经验学习并对输入数据做出决策或预测的方法.它是人工智能的一个重要分支,已广泛应用于各种领域,如自然语言处理,计算机视觉,推荐系统,医疗诊断,金融风险预测等.1.2机器学习与人工智能,深度学习的关系人......
  • 本周总结
    本周回顾将环境进行了进一步的完善,然后准备了一些开学需要用到的东西,提前为开学做个准备先;遇到的问题hadoop无法正常启动,hdfs集群的jps不显示;hadoop的具体实践;解决方法根据一些教程彻底解决啦!我现在可以堪称为问题王者(自认为);实践方面,还得继续努力;下周预计下周就要开学啦......
  • Windows 11 绕过 TPM 方法总结,通用免 TPM 镜像下载 (2023 年 8 月更新)
    Windows11绕过TPM方法总结,通用免TPM镜像下载(2023年8月更新)在虚拟机、Mac电脑和TPM不符合要求的旧电脑上安装Windows11的通用方法总结请访问原文链接:https://sysin.org/blog/windows-11-no-tpm/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org本文......
  • 【路径规划】基于海鸥优化算法实现栅格地图机器人路径规划附matlab代码
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进。......
  • 《LGJOJ 8.22》 测试总结
    \(T1\)青蛙送分题,不说了。也是唯一会做的题。点击查看代码#include<bits/stdc++.h>typedeflonglongLL;usingnamespacestd;constintMAXN=210;intn,m,k,x,y,z;intf[MAXN][MAXN][MAXN];intdx[10+10]={0,0,1,-1,0};intdy[10+10]={1,-1,0,0,0};intdz[10+......