首页 > 其他分享 >样本不均衡问题的解决方案

样本不均衡问题的解决方案

时间:2023-10-20 15:12:21浏览次数:40  
标签:loss log 解决方案 样本 0.6 均衡 cases hat

数据角度

Loss角度

二分类交叉熵:

\[Loss=L(y,\hat{p})=-ylog(\hat{p})-(1-y)log(1-\hat{p}) \]

等价于

\[L(y, \hat{p}) = \begin{cases} - \log(\hat{p}) & \text{if } y=1 \\ - \log(1 - \hat{p}) & \text{if } y=0 \end{cases} \]

测试集上的loss为

\[L = \frac{1}{N} \left( \sum_{y_i=1}^{m} -\log(\hat{p}_i) + \sum_{y_i=0}^{n} -\log(1 - \hat{p}_i) \right) \]

其中m为正样本个数,n为负样本个数,N为样本总数

balanced cross entropy

放大出现次数少的label的loss
缩小出现次数多的label的loss

\[ L = \frac{1}{N} \left( \sum_{y_i=1}^{m} -\alpha \log(\hat{p}_i) + \sum_{y_i=0}^{n} -(1 - \alpha) \log(1 - \hat{p}_i) \right) \]

其中\(\frac{\alpha}{1 - \alpha} = \frac{n}{m}\)

Online Hard Example Mining

只用较难的样本来更新网络

\[ L(y, \hat{p}) = \begin{cases} - \log(\hat{p}) & \text{if } y=1 , \hat{p}<0.6 \\ - \log(1 - \hat{p}) & \text{if } y=0 , \hat{p}>0.4 \end{cases} \]

以二分类为例,我们认为大于0.5的就是正样本了,小于0.5的就是负样本。这样就意味着,我们可以“有选择”地更新模型,比如,设定一个阈值为0.6,那么模型对某个正样本的输出大于0.6,我就不根据这个样本来更新模型了,模型对某个负样本的输出小于0.4,我也不根据这个样本来更新模型了,只有在0.4~0.6之间的,才让模型更新,这时候模型会更“集中精力”去关心那些“模凌两可”的样本,从而使得分类效果更好,这跟传统的SVM思想是一致的。
还能防止过拟合:防止模型去把简单样本做的更好,来降低loss
参考博客

不足:这样算是硬截断的loss,我们只告诉模型正样本的预测值大于0.6就不更新了,却没有告诉它要“保持”大于0.6!
解决方案:

  • 采样部分loss大于0.6的简单样本
  • Focal loss(软化,可导)

Focal loss

公式如下:

\[L_{fl} = \begin{cases} - (1 - \hat{p})^\gamma \log(\hat{p}) & \text{if } y=1 \\ - \hat{p}^\gamma \log(1 - \hat{p}) & \text{if } y=0 \end{cases} \]

focal loss用较可导的方式量化了每个样本的难易程度,使loss聚焦于难分样本。

标签:loss,log,解决方案,样本,0.6,均衡,cases,hat
From: https://www.cnblogs.com/shiiiilong/p/17777148.html

相关文章

  • 手机端侧文字识别:挑战与解决方案
    手机端侧文字识别:挑战与解决方案在手机端侧实现文字识别,考虑资源限制和效率至关重要。1.图像处理在手机端侧进行图像预处理,必须精细权衡资源消耗与效果。其中,快速灰度化是首步,它使用像素加权法(如YUV转换)将彩色图像转化为黑白,目的是减少数据维度,加速后续处理。紧接着......
  • 为什么将LoRa用于智能环境监控解决方案
    环境监测是指测量影响环境质量的因素的代表值,以确定环境污染程度及其变化趋势。环境监测的主要目的是管理和尽量减少任何人类活动对环境的影响。在确保活动符合相关法律法规的前提下,我们努力改变人们的行为方式,以保护健康,减少对自然环境的风险和危险。本文向我们介绍了为什么物联网......
  • 安卓手机连接use调试解决方案
    一、确认手机的USB调试接口是打开的;----------打开开发者模式,暴击手机版本号多次,直到提示已打开开发者模式。二、使用USB线连接电脑和手机,可以首先执行adbremount(重新挂载系统分区,使系统分区重新可写)命令;三、remount成功后,可以使用adbshell命令查看设备是否连接成功;四、......
  • 智慧粮仓粮库解决方案:视频+AI识别技术赋能,守护大国粮仓
    一、需求背景我国作为世界人口大国,农产品需求量庞大,保障粮食等重要农产品安全是经济社会稳定发展的重要基础。粮食安全涉及到生产、收购、加工、储藏、销售等全产业链,既涉及新型基础设施建设,也有对软件技术等专业能力要求。伴随着互联技术的快速发展,粮仓粮库的建设与监管也迎来了......
  • windows命令行启动jar常见问题及解决方案
    windows端口被占用1查询端口netstat-ano2查询指定端口netstat-ano|findstr"端口号"3根据进程PID查询进程名称tasklist|findstr“进程PID号”4根据PID杀死任务taskkill-f-pid“进程PID号”5根据进程名称杀死任务taskkill-f-t-im“进程名称” ......
  • 律师必备软件Alpha系统,为专业律师提供高效解决方案!
        Alpha法律智能操作系统由iCourt开发,是一款集大数据、市场拓展、律所管理等功能于一体的智能操作系统,它旨在通过强大的法律科技赋能法律人,更快速地获取同类型案件的办理经验,进而减轻律师工作负担、提升工作效率。目前,这一系统业已成为了国内法律人士必备的软件工具。......
  • TSINGSEE智慧港口可视化智能监管解决方案,助力港口码头高效监管
    一、方案背景全球经济一体化进程以及国际市场的不断融合,使得港口码头成为了大型货运周转中心,每天数以百计的大型货轮、数以千计的大型集装箱、数以万计的人员流动。港口作为货物、集装箱堆放及中转机构,具有昼夜不歇、天气多变、环境恶劣等特性,安全保卫工作显得更加重要。在如此异常......
  • LAS Spark+云原生:数据分析全新解决方案
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群随着数据规模的迅速增长和数据处理需求的不断演进,云原生架构和湖仓分析成为了现代数据处理的重要趋势。在这个数字化时代,企业面临着海量数据的挑战和机遇,而构建可扩展、灵活且高效的数据......
  • Ribbon负载均衡
    1.Ribbon负载均衡规则规则接口是IRule默认实现是ZoneAvoidanceRule,根据zone选择服务列表,然后轮询2.负载均衡自定义方式代码方式:配置灵活,但修改时需要重新打包发布配置方式:直观,方便,无需重新打包发布,但是无法做全局配置3.饥饿加载开启饥饿加载指定......
  • RTSP/Onvi安防视频平台LiteNVR一站式视频监控解决方案
    随着我国计算机网络技术的发展和基础设施建设的不断完善,网络带来的便捷性已经开始改变我们的生活。网络设施的高速发展,视频监控行业也有了新的需求。1)高清监控系统需要满足管理者能够灵活的部署系统与分配责任;2)需要满足用户能够以最快速和最方便的方式使用监控录像。在很多项目......