首页 > 其他分享 >逻辑回归思路

逻辑回归思路

时间:2023-12-09 14:45:23浏览次数:34  
标签:逻辑 样本 变量 训练 是否 回归 删掉 建模 思路

整体建模思路
1、拿到样本先分训练集和测试集,0.7或0.8,根据样本数量考虑是否增加验证集,本次不增加验证集。
2、对训练集样本进行初筛。iv大于0.01,相关系数低于80%,缺失率根据变量中文名无特殊情况,不得高于80%。
3、对训练集先用决策树分6-8箱。此时对变量进行二次筛选。主要考虑变量是否大体单调、倒挂、具有解释性、是否集中、箱与箱之间是否能拉开差距。
4、对二筛变量考虑衍生变量。
5、进行共线性检查,VIF大于3需要删掉。再进行相关性检测,大于70%的删掉。
6、对变量进行调箱。一般五箱,缺失值视情况决定是否合并到坏样本率相近的箱。
7、转woe编码,对测试集也进行同样操作。
8、对训练集和测试集的变量做稳定性检测psi大于25%的变量画出训练集和测试集的坏样本对比图。若差距较大考虑删掉此变量。
9、建模,观察系数是否为负数,若有则删掉此变量重新建模。
10、评分卡

标签:逻辑,样本,变量,训练,是否,回归,删掉,建模,思路
From: https://www.cnblogs.com/chenqianguan/p/17890933.html

相关文章

  • 逻辑回归
    2、逻辑回归2.1常规但是要考虑样本均衡问题importmatplotlib.pyplotaspltx=z.iloc[:,0:7]y=z.iloc[:,7:]fromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportclassification_report......
  • 机器学习-线性回归-最大似然估计求解-解析解-01
    最大似然估计已经从某一分布中获取到n个样本并且假设改样本的分布服从某一个分布f(θ),θ为需要估计的参数,根据这n个样本去推导θ的值就叫做最大似然估计,假设样本服从某分布,根据样本计算出分布中的参数,参数计算出之后,就能去进行预测,正态分布概率密度:假设样本的误差服从正......
  • upload-labs文件上传通关思路总结
    一、描述顾名思义,文件上传就是利用服务器对上传文件时存在的漏洞来实现上传任意文件,通过自己编写的文件内容让服务器执行文件内容达到可控的目的,但文件的上传往往回有各种各样的过滤,以下将演示upload-labs的关卡:二、关卡1、pass-01尝试把webshell传入到服务器,发现服务器对......
  • R语言逻辑回归logistic对ST股票风险建模分类分析混淆矩阵、ROC曲线可视化
    全文链接:https://tecdat.cn/?p=34506原文出处:拓端数据部落公众号信用风险建模是金融领域的重要课题,通过建立合理的信用风险模型,可以帮助金融机构更好地评估借款人的信用状况,从而有效降低信贷风险。本文使用了R语言中的逻辑回归(logistic)模型,利用国泰安数据库中的103个上市公司......
  • 处理回归 【ChatGPT】
    https://www.kernel.org/doc/html/v6.6/process/handling-regressions.html#处理回归我们不会引起回归-本文描述了对开发人员来说,“Linux内核开发的第一法则”在实践中意味着什么。它是对报告回归的补充,该报告从用户的角度涵盖了这个主题;如果你从未阅读过那篇文章,至少在继续......
  • [WUSTCTF 2020](病假回归)
    [WUSTCTF2020]level1下载下来后有俩文件,先看level1查壳,无壳64位,拖入IDA中看到其中的i&1,为按位与运算,取2进制整数i的最低位,如果最低位是1则得1,如果最低位是0则得0。奇数i的最低位是1,偶数i的最低位是0。再看到output文件,里面有198,232,816,200,1536,300,6144,984,5......
  • CSP-J2022逻辑表达式(expr)
    #include<bits/stdc++.h>usingnamespacestd;typedeflonglongll;constintMAXN=1e6;structnode{   charv;   intl,r;};vector<node>g(MAXN);intbuild_tree(stringsl){   intlast=1;   stack<int>st;   for(inti=0;i<......
  • 从根上理解elasticsearch(lucene)查询原理(1)-lucece查询逻辑介绍
    大家好,我是蓝胖子,最近在做一些elasticsearch慢查询优化的事情,通常用分析elasticsearch慢查询的时候可以通过profileapi去分析,分析结果显示的底层lucene在搜索过程中使用到的函数调用。所以要想彻底弄懂elasticsearch慢查询的原因,还必须将lucene的查询原理搞懂,今天我们就先来介......
  • Python制作AI贪吃蛇,很多很多细节、思路都写下来了!
    前提:本文实现AI贪吃蛇自行对战,加上人机对战,读者可再次基础上自行添加电脑VS电脑和玩家VS玩家(其实把人机对战写完,这2个都没什么了,思路都一样)实现效果:具体功能:1.智能模式:电脑自己玩(自己吃食物)2.人机对战:电脑和人操作(在上步的基础上加一个键盘控制的贪吃蛇即可)实现环境:Pycharm+Pytho......
  • 数学建模回归分析part2
    回归系数的解释思考:y=b+b1*Inx;此时b1怎么解释?什么时候取对数经验法则:(1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数;(2)以年度量的变量,如受教育年限、工作经历等通常不取对数;(3)比例变量,如失业率、参与率等,两者均可;(4)变量取值必须是非负数,如果包含0,则可以对y......