• 2024-09-02【风控策略】风控模型评估指标
    模型评估是整个建模周期中基础且核心的部分。选择恰当的评估指标,可以使模型训练和测试事半功倍。模型训练后,我们需要对刚训练出来的模型通过一系列指标进行关于稳定度、区别能力等效果的度量。主要介绍以下常见评估指标:评估模型稳定度指标PSI、CSI;评估模型区别能力指标
  • 2024-08-27利用随机森林对特征重要性进行评估
    参考资料:https://blog.csdn.net/zjuPeco/article/details/773716453特征重要性评估现实情况下,一个数据集中往往有成百上前个特征,如何在其中选择比结果影响最大的那几个特征,以此来缩减建立模型时的特征数是我们比较关心的问题。这样的方法其实很歹,比如主成分分析,lasso等等。不过
  • 2024-08-1224/8/11算法笔记AdaBoost多分类原理展示
    importnumpyasnpfromsklearn.ensembleimportAdaBoostClassifierfromsklearnimportdatasetsfromsklearn.model_selectionimporttrain_test_splitfromsklearnimporttreeimportgraphviz加载数据X,y=datasets.load_iris(return_X_y=True)X_train,X_test
  • 2024-08-09六、决策树
    决策1:如何选择在每个节点上分割什么特征?最大限度地提高纯度(或最小限度地减少不纯)。决策2:什么时候停止拆分?当一个节点是一个单一类时当拆分一个节点会导致树超过最大的深度当纯度分数的改进低于一个阈值(获得的信息增益很小小于阈值)当一个节点中的例子数量低于一个阈值
  • 2024-04-07树模型系列——2、决策树生成算法
    1ID3算法ID——IterativeDichotomiser(迭代二分器)从根结点(rootnode)开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点;在对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为
  • 2023-10-30Split to Achieve Gain
    MachineLearning-SplittoAchieveGainCalculateInformationGain.TaskGivenadatasetandasplitofthedataset,calculatetheinformationgainusingtheginiimpurity.Thefirstlineoftheinputisalistofthetargetvaluesintheinitialdataset
  • 2023-09-10机器学习算法原理实现——cart决策树
      cart决策树示例: 本文目标,仿照sklearn写一个cart树,但是仅仅使用max_depth作为剪枝依据。   我们本次实现cart分类,因此用到gini指数: 为了帮助理解:  好了,理解了基尼指数。我们看下cart树的构建步骤:注意还有几个细节: cart树每个treenode存储
  • 2023-05-09风控模型指标全解:KS、LIFT、GINI等
    目录GiniKS值LIFT提升度参考资料实习接触到的数据大多来自于金融公司,这类模型关注风险,目的是降低风险而使得在风险和收益的博弈中最大化利润。模型评价指标不局限于准确率等常规指标,往往引入了更复杂的指标衡量模型的效果。以下介绍风控场景下常见的模型评价指标。数据含义模型
  • 2023-05-02机器学习算法 随机森林学习 之决策树
    随机森林是基于集体智慧的一个机器学习算法,也是目前最好的机器学习算法之一。随机森林实际是一堆决策树的组合(正如其名,树多了就是森林了)。在用于分类一个新变量时,相关的检测数据提交给构建好的每个分类树。每个树给出一个分类结果,最终选择被最多的分类树支持的分类结果。回归则是不
  • 2023-03-07Gini coefficient直观的解释与实现
    引言大家在机器学习中经常会看到基尼系数的词汇,有时候在做比赛的时候,有些赛题的ScoringMetric就是基尼系数。我们去Google或者Baidu,得到的都是些不甚满意的经济学相关
  • 2023-03-07CART分类回归树分析与python实现
    引言前面我们分享过一篇决策树算法叫ID3:ID3决策树原理分析及python实现。首先我们来回顾下ID3算法。ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息