首页 > 其他分享 >最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评

时间:2023-03-13 16:32:41浏览次数:47  
标签:竞赛 变量 测评 新风 模型 Toby 建模 开箱 数据

作者Toby,来源《最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评》

各位朋友,最新金融风控模型竞赛开始了!竞赛名称为金融大数据应用:企业信贷风险防控;组织单位:数字中国建设峰会组委会;中国建设银行提供模型竞赛数据集。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_风控

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_中国建设银行_02

这次模型竞赛奖金很高,总奖金160万元,一等奖八万元。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_风控模型_03

赛题背景:
  金融机构的数字化转型正在如火如荼地进行,人工智能作为数字化转型的重要手段之一,全方位融合赋能金融行业的业务领域和场景应用。目前人工智能技术在金融产品设计、市场营销、风险控制、客户服务和其他支持性活动等金融行业五大业务链环节均有涉及,特别是以生物特征识别、机器学习、计算机视觉、知识图谱等技术赋能下的金融行业,已经衍生出智能营销、智能身份识别、智能客服等多个金融人工智能典型场景。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_风控_04

 赛题任务
  1.将金融数据与政务数据相结合,可自备行业数据丰富模型维度。从需求分析、场景设计、解决方案、落地验证、产品价值多个方面开展创意设计,提交创意解决方案。
  2.企业信贷风险防控方案。结合企业数据与公共数据,建立企业信贷风险分析模型。场景方向可从准入管理、预警监控、信贷调整、贷后管理等方面,对企业各方面的风险进行评估,结合模型及业务场景设计完整的风险防控方案,提升银行信贷风险防控能力。

参赛规则

▶▶ 参赛人群:大赛面向社会各界开放,不限年龄国籍、高校、科研院所、企业从业人员均可登录官网报名参赛。参与大赛组织工作有关单位员工可参赛但不可获奖;
▶▶


数据说明

这次Toby老师也下载了模型竞赛数据,观察这次数据集的变量是公开透明的。这意味着此次模型竞赛非常有意义,我们能通过数据挖掘和建模方法找出有价值变量和业务意义。

下图是中国建设银行提供数据集,共47个变量,12万客户数据,数据量还算比较大。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_机器学习_05

  企业信贷风险防控数据主要包括企业工商信息、法人基本信息、公积金缴交等金融数据与政务数据(均为模拟数据),数据字典已包含。其中训练集与测试集可由选手根据方案实际情况自行划分,选手也可自备数据丰富方案维度。

提交要求

  参赛者须在初赛阶段提供解决方案设计说明书(PPT、WORD或PDF格式)和成果模型。内容需包括但不限于:
  背景分析 —— 具有现实意义、面向金融业实际面对的问题,结合具体情况,分析业务现状、当前痛点、难点;
  实施方案 —— 基于背景分析,设计数字化场景,提出可解决问题、降低金融风险、提升客户体验的创新思路实施方案;
  数据分析 —— 对数据的选取、使用过程进行分析,包括数据清洗过程、字段筛选、重要性分析等;
  算法分析 —— 对建模使用的具体算法进行分析介绍,包括算法选择原因、调参过程等进行分析说明;
  作品价值 —— 体现作品的实际落地价值,通过可度量的指标进行体现。

提交示例

  解决方案设计说明书可以是PPT、WORD或PDF格式,文件名以“赛题名称+团队名称+方案名称”为准。
  如有影音、数据、模型等文件,请打包在同一个文件夹压缩后进行提交。

评测标准

  大赛主办方组建大赛专家评审团负责比赛评审工作。
  大赛专家评审团根据各指标比例及对应参考描述,以百分制方式,对参赛者作品进行打分。评审标准暂拟如下,仅供参考,根据大赛实际组织情况调整,以实际评审标准为准。

评分维度

作品成熟度

技术水准

应用潜力

答辩表现

占比

40%

30%

20%

10%

作品成熟度(40%)
  (1)需求分析(10%):具有较强社会意义、金融行业实际需求的问题,基于对数据的处理分析,结合真实情况,有效把握需求痛点、难点、堵点;
  (2)场景设计(10%):基于需求分析,设计数字化场景,提出可解决问题、减少社会成本、提高效益的创新思路;
  (3)解决方案(10%):基于赛题场景设计,提出符合金融需求的可落地解决方案,形成较完善的分析报告或综合方案;
  (4)数据使用(10%):对于系统构建所需数据有较清晰的数据清单,其中或包括数据类别、数据格式、数据功能、数据来源等信息,并对数据使用流程做出较清晰规划。
  ● 技术水准(30%)
  (1)先进性(5%):有效使用云计算、大数据、人工智能等技术,且技术能力领先市场已有应用,具备技术先进性;
  (2)创新性(20%):解决问题的思路、方案具有较强的创新性,与传统方法有明显的区别与升级;
  (3)成熟度(5%):方案深入行业需求,能够有效解决行业痛点问题,并针对未来实施过程中可能遇到的风险问题做出预测,并提出相应预案。
  ● 应用潜力(20%)
  (1)实用性(5%):作品方案符合实际使用场景需求,可落地应用,解决真实业务难题;
  (2)普适性(5%):作品方案具有较强的普适性,可适用于多种场景,解决多类问题;
  (3)社会效益(5%):作品方案实际应用后,可产生较大社会效益,切实助力惠民、兴业、优政;
  (4)商业价值(5%):作品方案可高效率、低费用应用,具有较强的商业价值、推广潜力。
  ● 答辩表现(10%)
  答辩时仪态得体,语言表达逻辑清晰,合理解答专家疑问,展现了较为丰富的经验和专业的能力。


Toby老师指出这次模型竞赛非常open,不是之前以单个指标(accuracy/AUC/F1 score)来排名,而是对参赛者多个方面考察。之前我写的文章​​《四川省大学生金融科技建模大赛-模型复现和点评》​​提出过主办方改进建议,如下图。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_机器学习_06

貌似主办方看过这篇文章,这次项目的确弥补了之前缺点,堪称经典。这次比赛非常经典,建议大家都去参与,提高自己建模能力。



开箱测试​

Toby老师下载数据后开箱测试,先绘制变量直方图和相关性热图,投石问路。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_模型竞赛_07

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_中国建设银行_08

Toby老师建议大家不要急着建模,先观察数据分布特征,这类似进攻前的情报收集工作。

Toby老师通过描述性统计,发现这数据集需要大量预处理工作,对初学者有一定难度。例如时间变量比较多,可以做衍生变量。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_中国建设银行_09

此数据集夹杂着错误数据,如果参赛者没有自动化检测工具,很难发现里面埋的坑。例如贷款申请时间里有2999年数据,法人出生日期有3019年数据,这是什么东东?

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_机器学习_10

脏数据意味着中国建设银行复杂数据库员工工作不仔细,或者故意输入几个错误数据。脏数据很正常,因为数据量太大了,我们经常遇到。

Toby老师初次建模观察,模型性能解决完美。如果是经验不足选手,估计已经高兴地晕过去。对于我们来说,模型质量好的可疑,我们要去仔细检查变量业务意义。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_机器学习_11

果不其然,变量存在数据泄露风险。至于什么是数据泄露,请大家阅读之前我写的文章​​《数据泄露-揭秘机器学习模型如何作弊》​​。

Toby老师通过多轮变量筛选,删除疑似数据泄露变量后,最后用34个变量建模,模型性能非常棒。通过建模,我发现数据集存在多个强变量。中国建设银行拥有这些强变量,风控能力会非常不错。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_风控_12

Toby老师入模的34个变量中,高相关性变量已经非常少。如果更严格一些,这34个变量还可以继续筛选。此模型用10-20个变量,足以发挥优秀性能。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_风控_13

如下图,模型AUC为0.98,当然我可以做的更高,这属于前几轮测试数据,模型调参等提高模型性能方法还没用。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_中国建设银行_14

有的变量重要性比较低,但业务意义比较重要,我还是建议保留,继续收集更多数据后观察实验。我们建模不能只看统计结果,还要尊重业务意义。数据建模和业务意义类似于太极的阴和阳,两者缺一不可,互相平衡方能发挥最好效果。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_机器学习_15



总结​

金融大数据应用-企业信贷风险防控模型竞赛是一次非常棒的比赛!鼓励大家多去参与。如果大家想学习风控建模方法和代码,可关注Toby老师自研课程《python金融风控评分卡模型和数据分析》。教程包含逻辑回归,集成树,神经网络等常见算法介绍和代码,有大量实战案例,模型性能优越,适用于论文,作业,专利,模型竞赛,企业模型。欢迎大家收藏,以备工作和学习使用。

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评_风控_16

如果有更高需求朋友,可与博主留言,例如模型竞赛定制需求,我们团队提供一对一机器学习模型定制服务,提供Python建模代码,PPT模型文档,远程协助,专业答疑。

版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

标签:竞赛,变量,测评,新风,模型,Toby,建模,开箱,数据
From: https://blog.51cto.com/pythonEducation/6118163

相关文章

  • Higress on K8s 5分钟开箱即用
    作者:澄潭Higress简介Higress是云原生网关的提出者和定义者,实现了K8s的IngressAPI标准,历经阿里双十一洪峰考验,对比IngressNginx具备以下优势:5分钟开箱即用Step0.......
  • Higress on K8s 5分钟开箱即用
    作者:澄潭Higress简介Higress是云原生网关的提出者和定义者,实现了K8s的IngressAPI标准,历经阿里双十一洪峰考验,对比IngressNginx具备以下优势:5分钟开箱即用......
  • 企业数据分析获得认可,瓴羊Quick BI通过中国信通院测评
    “互联网+”时代,企业数据分析成为了一种核心竞争力。在此背景下,瓴羊QuickBI等商业智能工具成为了不少企业提升内部企业数据分析的关键助手。现如今,面对海量的数据资产,一家......
  • 开箱即用,你不可错过的好东西「GitHub 热点速览」
    近两周ChatGPT的应用雨后春笋般冒出来,占据了GitHub热榜半个版面,像是本周推荐能搞定一本电子书翻译的bilingual_book_maker,有ChatGPTbuff加成的小爱同学。除了开箱......
  • "免费虚拟主机"“免费云服务器”使用测评
    三feng云”"免费虚拟主机"“免费云服务器”三feng云是主机屋被收购后创始人阿肖出来二次创业。因为之前玩过主机屋的服务器;正式接触三feng云是从这学期上网课开始,我们课......
  • 5款软件压力测试工具分享,上海专业的软件测评中心安利
    一、什么是软件压力测试?软件压力测试是一种基本的质量保证行为,它是每个重要软件测试工作的一部分。软件压力测试的基本思路很简单:不是在常规条件下运行手动或自动......
  • 第三方软件测试机构需要具备哪些资质?软件测评收费标准
    一、什么是第三方软件测试机构?第三方软件测试机构是区别与软件开发方与需求方的第三方检测机构,因为与软件产品本身无利益关系且有着丰富的测试经验,操作软件测试过......
  • chatGPT在电力系统优化领域的初步测评
    最近终于有时间初步尝试了一下chatGPT,感觉还是很令人吃惊。综合以下几个方面进行评估:知识范围:十分广,基本上电力系统的很多知识都有所了解。表达能力:较强,比较清晰完整。数......
  • Vue3开箱即用中后台管理资源推荐
    Vue3-admin-element-template基于Vue3、Vite2、Element-Plus、Vue-i18n、Vue-router4.x、Vuex4.x、Echarts5等最新技术开发的中后台管理模板官方文档:文档地址Gin-vue-a......
  • 等保测评是什么意思?APP有必要进行等保测评吗?
    在网络安全这个圈子里,等保测评是非常热门的词汇,而且对于很多企业而言,等保测评是必须进行的项目,如果不进行等保测评可能会面临罚款等。因此很多人就比较关心:APP有必要进......