标签：采样 novel 数据 fault 样本 DBCF 平衡 imbalance 方法

Paper Reading 是从个人角度进行的一些总结分享，受到个人关注点的侧重和实力所限，可能有理解不到位的地方。具体的细节还需要以原文的内容为准，博客中的图表若未另外说明则均来自原文。

论文概况	详细
标题	《Deep balanced cascade forest: An novel fault diagnosis method for data imbalance》
作者	Hao Chen, Chaoshun Li, Wenxian Yang, Jie Liu, Xueli An, Yujie Zhao
发表期刊	ISA Transactions
发表年份	2021
期刊等级	中科院 SCI 期刊分区(2023年12月最新升级版) 2 区
论文代码	文中未公开

作者单位：

School of Hydropower and Information Engineering, Huazhong University of Science and Technology, Wuhan, China
School of Marine Science and Technology, Newcastle University, Newcastle upon Tyne, United Kingdom
China Institute of Water Resources and Hydropower Research, Beijing, China

研究动机

旋转机械在工业中起着极其重要的作用，一旦出现故障会有故障时间长、维修成本高的问题。因此及早发现并正确诊断其故障，有利于其维护和安全使用。由于旋转机器在其大部分使用寿命中都是健康的，只有一小部分的状态监测数据是在机器故障状态下采集的，导致故障检测的数据存在不平衡问题。与不平衡学习相关的方法有数据级方法和算法级方法两类，其中数据级方法能在一定程度上改善不平衡，但也存在一些难以避免的缺陷。算法级方法是为特定的数据和问题而设计的，核心参数的设置是影响方法有效性的关键，其泛化能力弱且人工工作量大。一种新的基于决策树集成方法的深度学习方法 gcForest 显示了不平衡分类的潜力，因此利用 gcForest 开发一个新的不平衡学习框架是可能的。

文章贡献

本文基于级联森林提出了一种用于不平衡故障检测数据集的模型 DBCF，该模型设计了优化的级联随机森林，从数据层面和算法层面改进不平衡学习。首先提出了一种新的多通道级联旋转机械故障诊断框架，该框架将数据级方法和算法级方法相结合。然后提出了一种混合采样方法，通过生成新数据和丢弃类分布边缘的样本实现，为每个梯级森林通道提供平衡的数据集。最后提出了一种基于数据比例统计计算的新型平衡信息熵，并使用该指标设计了一种新型平衡森林。通过在平衡数据集上的对比实验，结果验证了 DBCF 在处理不平衡故障诊断问题上更加稳定和有效。

本文方法

本文提出的 DBCF 方法结构如下图所示，主要是通过混合采样的三个步骤来处理不平衡数据：计算接受率、生成新样本和丢弃样本。采样结果对应每个通道的输入，每个通道对应一个级联的平衡森林，最后对多个通道的输出进行融合得到预测结果。

混合采样

本文基于重要性抽样和拒绝抽样的思想，提出了一种混合采样方法来缓解数据的不平衡。首先使用样本和近邻的样本的距离定义一个样本的接收率，接收率用于刻画一个样本能在多大程度上反映某个类别的特征。接收率的公式如下，其中 r_i 为样本 x_i 的接收率，d(x_i,x_i) 为 x_i 与 x_j 之间的欧氏距离，n 定义为离 x_i 最近的 n 个样本中与 x_i 属于同一类的样本个数。

上采样过程在同一少数类的两个样本之间产生一个新样本，它们之间的距离由两个样本的接受率决定。公式如下所示，其中 x' 为生成的数据，x_i 和 x_j 为随机选取的少数类样本，r_i 和 r_j 为 x_i 和 x_j 的接受率。

然后生成一系列平衡样本集，并重新计算所有数据的接收率作为样本重要性。由于生成的平衡数据集分布边界模糊，因此使用下采样使边界清晰。下采样通过根据概率丢弃样本来实现，丢弃的概率等于重要性的倒数。混合采样流程如下图所示，在 DBCF 中需要执行 C 次混合采样，为 C 个通道提供数据集。

新型平衡森林

数据分布的不平衡会干扰决策树的特征选择，也会影响信息熵的计算。DBCF 使用的基本分类器是一种新型平衡森林，它采用了一种改进的信息熵——平衡信息熵。平衡信息熵的公式如下，其中 |y| 为当前分支的类数，|Y| 为总类数，x_k 为集合 D 中属于 k 类的样本数，X_k 为属于 k 类的样本数。

BF 树采用信息增益率增长树的结构，如下公式所示。其中 a 为特征产生分割的阈值，V 为分割分支的个数，|D^V| 为分支 V 的样本个数，本文的模型中设置 V=2。

DBCF 整体流程

DBCF 整体的伪代码如下所示，主要包括混合采样和多通道级联森林两个模块。混合采样用于为多通道级联森林模块的每个通道生成平衡训练数据，每个通道的训练集将被分成生长集和估计集。级联在生长集的训练过程中不断增长，直到在估计集上的性能没有提高。

实验结果

数据集和实验设置

本文的数据集来源于 CWRU 电气工程实验室的公共数据集，以及 MFS 在作者所在实验室采集的数据。总共包括有 9 个数据集，基本信息如下表所示，评价指标使用 G-mean 和 AUC。

对比故障诊断方法

此处和一些故障诊断方法进行比较，人工神经网络采用 BP 算法进行训练，ELM 方法由小波主动函数构成，SMOTE-SAE 方法是将过采样方法 SMOTE 与堆叠自编码器 SAE 相结合，算法的设置如下表所示。

实验结果如下表所示，DBCF 在这些数据集上的评价指标优于其他三种方法。

对比基于决策树的方法

此处和随机森林、gcForest 进行比较，DBCF 和 gcForest 的最大层数设置为 5，树数设置为 100，随机森林的树数设置为 500。实验结果如下表所示，可见 DBCF 对不平衡数据的处理效果较好。

对比不平衡分类方法

此处和一些不平衡学习的方法进行对比，包括重采样方法 WMODA 和 IMH、采用加权 softmax 损失来处理不平衡分类问题的网络模型 DNCNN、半监督和无监督方法 DFCM-MC 和 SMLCI、基于生成对抗网络的方法 GAN-CNN。实验结果如下表所示，可见在类别数量较多、IR 较高的情况下，DBCF 优于这些现有的方法。

模型效率的比较

模型的运行时间如下表所示，可见 DBCF 在训练效率上没有优势，但是与人工神经网络需要根据不同的数据调整参数相比，DBCF 具有可靠稳定的性能。

优点和创新点

个人认为，本文有如下一些优点和创新点可供参考学习：

针对故障诊断问题的不平衡的情况，本文提出了一种混合采样方法，先生成一些合成样本，然后通过欠采样来得到更明确的决策边界；
在过采样的设置方面，本文通过定义一种名为接收率的指标来量化少数类样本的重要性，使合成样本的构造更为可靠；
本文通过改进信息熵的方式，将信息增益率引导的森林推广到不平衡学习上。

标签：采样,novel,数据,fault,样本,DBCF,平衡,imbalance,方法
From： https://www.cnblogs.com/linfangnan/p/18442058

Paper Reading: Deep balanced cascade forest: An novel fault diagnosis method for data imbalance