使用scorecardpy库计算woe分箱和iv值

时间：2025-01-20 19:28:53浏览次数：3

标签：分箱 df iv 样本数 result woe

woe分箱_iv值计算

基于scorecardpy库，乳腺癌数据集

import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
import scorecardpy as sc
from tqdm import notebook

cancer = load_breast_cancer()
df = pd.DataFrame(cancer.data,columns=['_'.join(i.split()) for i in cancer.feature_names])
df['y'] = cancer.target

"""woe计算"""
#所有的column是
need_columns = df.iloc[:,:-1].columns.tolist()
data_list = []
for i in notebook.tqdm(need_columns):
    bins = sc.woebin(df[[i,'y']],y='y')
    data_list.append(bins[i])

result_woe = pd.concat(data_list)

result_woe.columns = ['特征','分箱','分箱样本数','count_distr','负样本数'
                      ,'正样本数','正样本占比_当前分箱','woe_当前分箱'
                      ,'iv_当前分箱','iv值','分割点','是否特殊值']

result_woe['负样本占比_当前分箱'] = result_woe['负样本数']/result_woe['分箱样本数']
result_woe['正样本%'] = result_woe['正样本数']/df['y'].sum()
result_woe['负样本%'] = result_woe['负样本数']/(df.shape[0] - df['y'].sum())

result_woe = result_woe[['特征', '分箱', '分割点', '是否特殊值', '分箱样本数'
                      , 'count_distr', '负样本数', '正样本数', '正样本占比_当前分箱'
                      , '负样本占比_当前分箱', '正样本%','负样本%','woe_当前分箱', 'iv_当前分箱', 'iv值']]

20230104nPUWjG

woe计算公式
w o e = log ⁡ ( g o o d % b a d % ) woe = \log(\frac{good\%}{bad\%} ) woe=log(bad%good%)
iv计算公式
i v = ∑ ( g o o d % − b a d % ) ∗ w o e iv = \sum(good\%-bad\%)*woe iv=∑(good%−bad%)∗woe

标签：分箱,df,iv,样本数,result,woe
From： https://blog.csdn.net/hbkybkzw/article/details/145268127

CF div3 998（F,G）
F\(dp\)+组合数学需要注意，数组中\(>1\)的数字个数不会超过\(log_{2}k\)个。先暂时不考虑\(1\)的摆放，只考虑所有\(>1\)的数：设\(f_{l,i}：\)长度为\(l\)，乘积为\(i\)，且所有元素均\(>1\)的数组个数考虑数组的最后一个元素\(d\)，必有\(d|i\)成立，因为每个元素一定是\(i\)的因子。则......
请写出:link、:visited、:hover、:active的执行顺序
在CSS中，:link、:visited、:hover、:active是四种伪类选择器，它们通常用于定义超链接（<a>标签）在不同状态下的样式。这些状态的选择器有一个特定的顺序，通常被称为“LoVe/HAte”顺序，这是由它们各自代表的状态和这些状态通常发生的顺序来确定的。:link-选择所有未被访问的链接。:......
【迁移学习】原型引导领域感知渐进表示学习（prototype-guided domain-aware progressiv
【迁移学习】原型引导领域感知渐进表示学习（prototype-guideddomain-awareprogressiverepresentationlearningPG-DPRL）（二）【迁移学习】原型引导领域感知渐进表示学习（prototype-guideddomain-awareprogressiverepresentationlearningPG-DPRL）（二）文章目录【迁移学......
【一看就会】Autoware.universe的“规划”部分源码梳理【六】（behavior_path_planner第
文章目录前言六、避障变道模块——autoware_behavior_path_avoidance_by_lane_change_module文件功能主次关系功能依赖说明核心文件-scene.cpp主要执行流程1.检查阶段2.数据更新阶段3.规划阶段辅助计算函数数据流向源码注释管理文件-manager.c......
Amazon Virtual Private Cloud（VPC）
AmazonVirtualPrivateCloud（VPC）是AmazonWebServices（AWS）的一项强大服务，它提供了一个完全隔离的私有网络环境，使得用户能够在云中精细控制网络资源。以下是VPC更详细的功能和扩展内容：1.VPC网络设计和管理VPC允许你完全控制网络配置，包括：IP地址范围：你可以选择适合自己需求......
最新版Edge浏览器加载ActiveX控件技术——alWebPlugin中间件V2.0.30_alpha-春节版发布
allWebPlugin简介 allWebPlugin中间件是一款为用户提供安全、可靠、便捷的浏览器插件服务的中间件产品，致力于将浏览器插件重新应用到所有浏览器。它将现有ActiveX控件直接嵌入浏览器，实现插件加载、界面显示、接口调用、事件回调等。支持Chrome、Firefox、Edge、360......
最新版Chrome浏览器加载ActiveX控件技术——allWebPlugin中间件之awp_CreateActiveXOb
背景 ActiveXObject‌是JavaScript中的一个特殊对象，用于在InternetExplorer（IE）浏览器中创建和操作COM（ComponentObjectModel）对象。COM是一种面向对象的软件组件技术，允许不同应用程序之间的互操作性。通过ActiveXObject，JavaScript可以与Windows平台上的本地......
188. 买卖股票的最佳时机 IV
买卖股票的最佳时机IV类比j为奇数是买，偶数是卖的状态。/***@param{number[]}prices*@return{number}*/dp[0]:无操作;dp[1]:第一次买入；dp[2]:第一次卖出；dp[3]:第二次买入；dp[4]:第二次卖出； //2*k+1varmaxProfit......
中考英语优秀范文-热点话题-传统文化-010 Mid-Autumn Festival 中秋节
1写作要求中秋节是我国的传统节日，随着经济的发展和时代的变迁，中秋节依然在我们国人心中有着重要的位置。在中秋节，人们望着天上的明月，守望膜拜，吃着月饼，寄托情怀，这个节日更多地被赋予了思念亲人的色彩，祈求团圆和幸福。过去的中秋节有没有特别让你难忘的事情发生，让你觉得温暖、意义......
使用wget下载Civitai教程和优化
在现代互联网中，下载大规模的数据文件时，我们往往需要借助一些自动化工具来简化过程，尤其是当需要下载多个文件或特定资源时。本文将介绍如何使用wget工具配合Python脚本来批量下载Civitai网站上的数据，同时提供一些优化和定制化的技巧。简便的教程，一阵见血wget https:/......

使用scorecardpy库计算woe分箱和iv值

woe分箱_iv值计算

相关文章

赞助商

阅读排行