前面完成了最初的特征选择,基本没有考虑业务逻辑,我直接使用这些特征开始进行预测了。
基于当前业界对XGBoost的推崇,我准备不走弯路,直接上XGBoost进行预测。
从打印的“取数据完成”可以看出数据完全读取了。
下面我们用训练集进行预测,看看说明情况
程序运行了691秒,产生了xgb模型,我们看到在训练集上的F1_score为0.9977,是不是很高兴?其实这个就是用训练题目作为考试题目,因为都做过,肯定很高的分数了。
不过因为当时不是很懂机器学习的特征变换及python语言实现,就用了这个模型直接对A榜和B榜进行了预测,是什么结果呢?
我先用常用的参数优化函数来预测以下实际结果:
看看把数据带入的结果
我们可以看到在训练集中做预测,使用参数搜索,得到最优参数时,F1_score的取值为0.5468,由于本次比赛的A、B榜的样本分布均与训练集高度相似,实际AB榜得分为0.55,
大约排名在100名左右了,这个也是我提交的最后预测模型。
现在对模型和特征进一步分析,拿到可以指导我们实际客户管理的东西。
先看看哪些特征对客户存款上升有显著影响?我们把所有的特征的重要性用图表的方式显示以下,如下图。
用列表的方式显示以下权重:
我们看到
('AST_FA_BAL_MAX', 1784.0), ('AST_YAVER_FA_BAL', 1631.0), ('AST_SAVER_FA_BAL', 1275.0), ('AST_DAY_FA_BAL', 1229.0), ('TPAY_SEAN_TR_AMT', 1118.0), ('AST_YAVER_DPSA_BAL', 1065.0), ('IBTF_YEAR_TR_AMT', 1043.0), ('AST_MAVER_FA_BAL', 1002.0),
这些特征的影响排名靠前,他们分别是:金融资产余额最大值、年日均金融资产余额、季日均金融资产余额、当日金融资产余额、第三方交易季交易金额、年日均活期存款余额、
跨行转账年交易金额,月日均金融资产余额。
这为我们“找”客户提供了一个基本的参考,就是先看金融资产余额最大值、、年日均金融资产余额、季日均金融资产余额、当日金融资产余额、第三方交易季交易金额、年日均活期存款余额、
跨行转账年交易金额,月日均金融资产余额。
下一节我根基后期补学的有关知识进一步进行特征优化,看看能把预测F1值提高到那个水平?
标签:大众,AST,--,日均,FA,人工智能,余额,金融资产,BAL From: https://www.cnblogs.com/aswgp/p/17360229.html