机器学习评价指标总结（多分类篇）

多分类任务
- 直接作为多分类任务
- 转换化为二分类任务
基础指标
综合指标
总结

在机器学习的多分类任务中，我们常常需要评价模型在多个类别上的表现。对于多分类任务来说，主要有两种处理方法：直接作为多分类任务和转化为二分类任务。以下我们会从相应的处理方法出发，介绍多分类任务的评价指标。

多分类任务

直接作为多分类任务

一种常见的方法是将多分类问题视为一个整体，使用一个模型同时处理所有类别。模型的输出通常是一个包含所有类别的预测概率分布，从中选择最高概率的类别作为预测结果。在测试时，我们直接使用模型的输出来预测样本的类别，即选择具有最高概率的类别作为最终的预测结果。

直接训练一个多分类模型可能面临一些问题：

类别不平衡问题：在直接训练多分类模型中，不同类别的样本数量可能存在不平衡，导致模型在预测时更偏向于出现频率较高的类别，而忽略了其他类别。
复杂关系：在某些情况下，类别之间可能存在复杂的关系，使得单一的多分类模型难以有效地捕捉这些关系。

转换化为二分类任务

另一种常见的处理方法是转化为二分类任务，分别有两种策略：一对多策略与一对一策略。

一对多策略（One-vs-Rest，OvR）

在 OvR 策略中，对每个类别会训练一个独立的二分类模型。每个模型被训练来区分一个特定的类别与其他所有类别的组合。

训练过程中，每个类别的模型将其正样本标记为正类，而其他所有类别的样本标记为负类。

在预测时，对于一个新样本，每个模型都会给出一个预测概率或类别标签。最终，样本被分配给具有最高预测概率的类别。

一对一策略（One-vs-One，OvO）

相比之下，OvO 策略更为复杂。在这种策略下，每两个不同的类别之间都训练一个独立的二分类模型。

例如，如果有 N 个类别，那么需要训练 N(N-1)/2 个模型。训练过程中，每个模型的目标是将两个特定的类别区分开。

在预测时，每个模型都对样本进行预测，得到 N(N-1)/2 个预测结果。最终，通过对所有模型的预测结果进行投票或者采取某种规则来决定样本所属的类别。

两种策略的比较

OvR 策略的优势在于训练速度相对较快，因为每个模型只需处理一个类别。然而，它可能会受到类别不平衡问题的影响，因为每个模型的样本分布可能不同。

OvO 策略需要训练更多的模型，但它对于类别不平衡的情况更加稳健，因为每个模型只关注两个类别，样本分布相对平衡。

在预测速度上，OvR 策略需要计算所有模型的预测结果，而 OvO 策略只需要计算相关类别之间的模型预测结果。

基础指标

评价指标的计算方法在两种方法中有一些差异，但它们都提供了对模型性能的有效度量，用于评估模型在多分类任务中的表现。具体选择哪种方法取决于任务需求、数据特点以及模型训练的策略。

对于直接对多个类别进行预测的多分类模型，准确率和混淆矩阵评价模型性能常用的指标，但具体选择也需要根据任务需求和数据特点进行综合考虑。

多分类准确率（Multi-Class Accuracy）：计算模型在所有类别上预测正确的样本比例。
混淆矩阵（Confusion Matrix）：展示模型在每个类别上的表现，计算各个类别的精确率、召回率、F1分数等评价指标。

对于转换为二分类的多分类模型，我们可以沿用常用的二分类模型的评价指标，包括准确率（Accuracy）、混淆矩阵（Confusion Matrix）、精确率（Precision）、召回率（Recall）、F1分数（F1-Score）等，此处不展开介绍。

综合指标

综合指标能够在全局范围内评估多分类模型的性能。在以上的方法中，我们都可以考虑宏平均、微平均和加权平均这几种方法。宏平均适用于各类别重要性相等的情况，微平均在样本不平衡时表现更稳健，而加权平均考虑了不同类别样本数量的差异。

宏平均（Macro-average）

宏平均计算每个类别的评价指标（如准确率、精确率、召回率、F1分数等），然后对所有类别的指标进行平均。宏平均给予每个类别相同的权重，适用于各个类别的重要性相等的情况。

\[Macro-average = \frac{1}{N} \sum_{i=1}^{N} Metric_i \]

其中，\(N\) 是类别的总数，\(\text{Metric}_i\) 是第 \(i\) 个类别的评价指标。

宏平均不会因为类别样本数量不同而偏向样本较多的类别。它关注每个类别的表现，适用于各个类别的重要性相等或相近的情况。

微平均（Micro-average）

微平均将所有类别的预测结果汇总起来，计算整体的评价指标。对所有类别的预测结果进行统一的计算，适用于类别样本不平衡的情况。以精确率为例，微平均的精确率为：

\[Micro\_P = \frac{\sum_{i=1}^{N} \text{TP}_i}{\sum_{i=1}^{N} \text{TP}_i + \sum_{i=1}^{N} \text{FN}_i} \]

其中，TP表示真正例（True Positive），FN表示假负例（False Negative）。

微平均考虑了所有类别的样本数量，它会更关注样本数量多的类别，因为这些类别会对整体性能有更大的影响。微平均能够反映出模型在处理样本数量不平衡情况下的表现。

加权平均（Weighted Average）

：考虑类别样本数量的不平衡性，对每个类别的指标乘以对应类别的样本数量占总样本数量的比例，然后进行加权平均。这可以反映不同类别的重要性。

\[Weighted-Average = \sum_{i=1}^{N} \left( \frac{\text{Metric}_i \times \text{Samples}_i}{\sum_{i=1}^{N} \text{Samples}_i} \right) \]

其中，Metric表示要计算的评价指标，Samples表示每个类别的样本数量。

加权平均考虑了类别样本数量的不平衡性，对样本较多的类别给予更大的权重，从而更好地反映整体性能。它适用于类别样本数量差异较大的情况。

综合指标的关系

宏平均考虑每个类别的个别表现，并对它们的评价指标（比如准确率、召回率等）进行平均。每个类别被视为同等重要，无论类别的大小或样本数量。

微平均则关注整体表现，它将所有类别的预测结果合并起来，计算一个总的评价指标。在微平均中，每个样本的预测都被视为同样重要，不管它属于哪个类别。

假设我们有一个三类分类任务：A、B 和 C。如果类别 A 有很多样本，而类别 B 和 C 的样本很少，在宏平均中，由于每个类别的指标会平均起来，因此对于这种样本不平衡的情况相对较稳健，不会因为类别A的样本数量多而对其产生特别大的影响。

而在微平均中，每个样本都被视为同等重要，不论它属于哪个类别。因此，样本多的类别会对整体性能产生更大的影响，从而导致微平均对于样本数量较多的类别更为敏感。也就是说，类别A会在微平均中对性能评估产生较大影响，有可能会掩盖其他类别的表现。

在样本不平衡的情况下，引入加权平均会赋予样本多的类别更大的权重，从而在评价指标中更好地体现这些类别的影响。虽然加权平均考虑了每个类别的贡献，但是如果样本非常不平衡的情况下，加权平均反而因为强调了某个类别而加剧样本不平衡问题。

总结

以上介绍的评价指标的选择和使用不依赖于具体的训练策略，它们都可以帮助我们了解整体性能以及各个类别的表现。无论是直接训练多分类模型还是使用多个二分类模型来辅助进行分类，我们都可以使用宏平均、微平均和加权平均来计算评价指标，以得到全局性能的衡量。

标签：总结,分类,机器,模型,样本,指标,类别,评价,平均
From： https://www.cnblogs.com/slowlai/p/17539505.html