目录
Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。
论文概况 | 详细 |
---|---|
标题 | 《Multi-class imbalance problem: A multi-objective solution》 |
作者 | Yi-Xiao He, Dan-Xuan Liu, Shen-Huan Lyu, Chao Qian, Zhi-Hua Zhou |
发表期刊 | Information Sciences |
发表年份 | 2024 |
期刊等级 | 中科院 SCI 期刊分区(2022年12月最新升级版)1区、CCF-B |
论文代码 | 文中未公开 |
作者单位:
- National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing, 210023, China
- School of Artificial Intelligence, Nanjing University, Nanjing, 210023, China
- Key Laboratory of Water Big Data Technology of Ministry of Water Resources, Hohai University, Nanjing, 211100, China
- College of Computer Science and Software Engineering, Hohai University, Nanjing, 211100, China
研究动机
类不平衡是分类任务中经常遇到的问题,其中多分类不平衡问题更为复杂。在二元分类中只需要权衡一个小类和一个大类,而在多类不平衡问题中,就需要考虑在不同小类和不同大类之间的权衡。因此针对多类不平衡问题设计一个再平衡策略更具挑战性,而且当涉及到模型评估时,很难用一个总体性能分数来描述一个多类分类器。
除了多类分类比二元分类更复杂之外,另一个挑战是类的相对重要性往往是未知的。如果能够为决策者提供模型的所有可能的最佳权衡性能,将极大地帮助决策者在开放环境中做出决策。例如下图所示的例子,左图中的情况决策者可能会选择红色所示的分类器。如果是右图所示的的情况,决策者可能会选择蓝色所示的分类器,因为它在所有类上都取得了令人满意的性能。因此当无法提前确定每个类别的重要性时,就需要在类别之间获得多样化的最优权衡以供决策者选择。
文章贡献
针对搜索 Pareto 前沿需要生成大量的解导致大量模型训练开销的问题,本文提出了多分类多目标选择集成 MMSE 框架。该框架在多目标建模中引入选择性集成,这样就不必重复训练整个模型,而是通过不同的基础学习器组合来获得不同的模型。训练单个学习器时使用了不同比例的欠采样数据集进行训练,提高了训练效率。同时由多个基学习器集成得到的模型可以覆盖更多的训练样本,避免了信息丢失的问题,在不同的类中具有更多样化的性能选择。当类的数量增加时,因为大多数生成的解是不可比较的,优化问题变得困难。本文进一步提出了一个基于边际的版本 MMSEmargin,它通过优化标签和实例边界来优化常见的性能度量,将目标数量减少到 3 个,同时仍然可以对常用的指标进行优化。
本文方法
问题定义
给定多分类预测器 f:Rd→R
标签:集成,Multi,MMSEmargin,multi,目标,分类器,所示,Reading,优化 From: https://www.cnblogs.com/linfangnan/p/18383226