• 2024-05-30风控建模常用指标——WOE/IV/COR/VIF/PSI总结以及实现代码
    风控建模常用指标——WOE/IV/COR/VIF/PSI总结以及实现代码在金融领域,风险控制(风控)是维护金融稳定和安全的重要环节。随着大数据时代的到来,金融机构越来越依赖于数据驱动的风控模型来评估和量化风险。在构建这些模型时,一系列关键指标成为了衡量和解释模型性能的基石。其中,WO
  • 2024-03-19一个典型的个贷评分卡挖掘建模项目(3)
    3.评分卡模型开发步骤3.1.数据挖掘目标数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘目标是从数据中发现隐含的、有意义的知识,通过预测未来趋势及行为,做出前摄的
  • 2024-03-15数据预处理|数据清洗|使用Pandas进行异常值清洗
    数据预处理|数据清洗|使用Pandas进行异常值清洗使用Pandas进行异常值清洗1.异常值检测1.1简单统计分析1.2散点图方法1.33σ原则1.4箱线图2.异常值处理2.1直接删除2.2视为缺失值2.3平均值修正2.4盖帽法2.5分箱平滑法2.6回归插补2.7多重插补2.8不处理
  • 2024-03-14day4数据清理以及特征提取
    第一步:导入ps:最后一行是为了查看是否成功导入缺失值处理df.info()df.isnull().sum() df.info是一个用于查看DataFrame的基本信息的函数。它可以帮助我们了解DataFrame的列名、非空值数量、数据类型等信息。df.isnull().sum()是一个用于计算DataFrame中每列空
  • 2024-03-06今日总结
    清洗数据有三个方法,分别是分箱法、聚类法、回归法。 1、分箱法 是一个经常使用到方法,所谓的分箱法,就是将需要处理的数据根据一定的规则放进箱子里,然后进行测试每一个箱子里的数据,并根据数据中的各个箱子的实际情况进行采取方法处理数据。 2、回归法 回归法就是利用了
  • 2024-02-26Python 机器学习 决策树 数值型特征的处理
    ​ Python机器学习中,特征提取是将原始数据转换为能够被模型有效利用的格式的过程。对于决策树模型而言,特征提取尤其重要,因为好的特征可以显著提升模型的预测性能。在实际应用中,需要根据具体情况选择合适的特征提取方法。数值型特征是机器学习中常见的一种特征类型,它指的是可以
  • 2023-12-11一些风控知识
    切比雪夫大数定理所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内*****IV值会受分箱数量影响,因此即使是同样的样本,随着分箱数量改变,IV值
  • 2023-12-04三种分箱
    cutsx['kh_loanterm']=pd.cut(sx['kh_loanterm'],bins=[3,6,9,12,15,np.inf],right=False,labels=['A_3','B_6','C_9','D_12','E_15'])def朴道_海纳综合指数V2_申请命中网络贷款类机构数_trans(x):#朴道_海纳综合指数V2_申请命中
  • 2023-08-04新人赛《金融风控贷款违约》避坑指南!
     Datawhale干货 作者:陶旭东,北京师范大学,Datawhale成员一、背景介绍本文以天池的金融风控赛为背景,梳理了金融风控的整个实践流程,帮助大家避坑学习。赛事的场景是个人信贷,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这个问题在现实的风控场景
  • 2023-04-06R语言_排列组合
    组合(combination)choose(n,r)参数:n:元素数量r:组合数返回:来自总共n个元素的r个组合的数量,即nCr值列出所有组合数矩阵:combn(x,n)阶乘:factorial(k)——k!排列(permutation)排列数:choose(n,k)*factorial(k)求排列数的话,可以用gtool
  • 2023-03-07pandas逐行操作、分箱技术、窗口函数shift,diff,pct_change,rolling
    [pandas逐行操作、分箱技术、窗口函数-古明地盆-博客园](https://www.cnblogs.com/traditional/p/12234328.html)cummax,cummin,cumprod,cumsum有时候我们需要求出从第
  • 2023-02-19Pandas中的离散化和分箱
    pandas.cut()方法介绍  连续值经常需要离散化,或者分离成“箱子”进行分析,假设我们有某项研究中一组人群的数据,需要将其进行分组,放入离散的年龄框中:ages=[2,67,40,
  • 2023-01-10宏基因组分箱
    分箱•使用metabat2进行分箱##构建indexsingularityexec../../software/MetaGenome.sifbowtie2-build\A1.contigs.fa\A1.contigs.db##比对并排序singularityexec
  • 2022-12-19详解逻辑回归与评分卡-用逻辑回归制作评分卡-分箱【菜菜的sklearn课堂笔记】
    视频作者:菜菜TsaiTsai链接:【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili分训练集和测试集fromsklearn.model_selectionimporttrain_te
  • 2022-09-06【读文章】2-特征编码的一些总结-推荐系统、数据挖掘、特征工程
    特征处理编码:数据类型:数值字符是否有顺序类别数量:高低基数1、独热编码针对无序低基数类离散特征,使之变为哑特征不适合高基数的特征2、标签编码:针对无序低基数类型的离散
  • 2022-09-04工业级推荐系统中的特征工程
    摘要:深度学习时期,与CV、语音、NLP领域不同,搜推广场景下特征工程仍然对业务效果具有很大的影响,并且占据了算法工程师的很多精力。数据决定了效果的上限,算法只能决定逼近上限