大赛背景
小微企业在经济发展过程中发挥着非常重要的作用、促进小微企业普惠金融服务是国家政策大力支持的方向,如何充分运用数字化风险评估手段解决小微企业面临融的资难、融资慢、融资贵问题,也是金融机构关注的重要问题,新网银行以建设“新一代数字科技普惠银行”为愿景, 始终坚持技术立行,通过敏捷的信息科技体系和精准的智能风控体系,推动数字普惠金融业务发展。本次大赛以小微风控为主题,期待挑战者利用统计和机器学习模型,对小微企业数据充分探索,开发出区分效果好,稳定性高的风控模型,助力小微风控。
赛题描述
赛道A:小微风控算法大赛-早期风险识别
此赛道仅在读本科生可报名,若为在读研究生及以上,请报名赛道B:小微风控算法大赛-长期风险识别
本赛道需要选手基于所提供的数据构建模型准确预测小微客户早期风险,数据既包含经过脱敏处理的小微企业法人基本信息、历史借贷信息、申请行为信息、工商司法信息以及贷款申请后的早期风险表现数据,期望选手开发模型,对客户早期风险进行识别,帮助金融机构进一步提升模型在小微企业信贷风控中的信用风险识别和防范能力。
时间安排
报名(即日-11月2日)
报名方式:参赛选手于报名规定时间内在DataCastle大数据竞赛平台完成注册和报名。
初赛(即日-11月8日)
(1)初赛于DataCastle平台线上进行,选手需在DataCastle平台下载数据,在本地进行算法调试,并在DataCastle提交结果,提交数据文件为 .csv格式,utf-8编码。
(2)客观提交分公榜、私榜两部分,公榜成绩将在每次完成提交后,进入评分系统,并及时出分。公榜每天提交次数上限5次,提交文件格式错误将不计入当日成功提交次数内,当日总提交次数不能超过20次(详见“常见问题”)。私榜成绩将在团队选择提交公榜文件后(如未选择,则系统默认选择公榜最优成绩+最后提交文件提交至私榜),公榜截止后公布私榜排名。
公榜客观提交时间为:即日至2022-11-08 17:00:00;
私榜选择文件时间为:2022-11-07 17:00:00至2022-11-08 17:00:00。
复赛(11月15日-11月19日)
(1)各赛道私榜排名前20名参赛团队进入复赛,进入复赛的队伍需在2022年11月14日24:00前提交选手身份证明材料和主观评审材料。
(2)主观评审材料提交。进入复赛的队伍需提交与私榜出分情况相同的模型和研究报告(包括报告正文、编程源代码)至组委会邮箱 [email protected] 。报告文件夹名为:队号-队长姓名-比赛阶段(第X队-张三-复赛),组委会提供报告固定格式。
(3)报告正文统一为word或pdf格式,可附其余支撑材料。所有提交材料请打包压缩成zip格式,压缩包大小不超过300MB,压缩包命名格式为:队号-队长姓名-比赛阶段。
(4)组织专家进行线上评审,各赛道选拔5支队伍进入决赛。
(5)组委会将于11月19日公布进入决赛的队伍名单。
决赛(11月27日)
(1)各团队根据各自指导教师意见完善研究报告,并在2022年11月23日24:00之前将修改后的电子版研究报告提交到组委会邮箱。报告文件夹名为:队号-队长姓名-比赛阶段(第X队-张三-决赛)。
(2)决赛以答辩的形式开展,答辩主要包括对研究报告的陈述和答疑两个环节,团队推选1名队员进行研究报告的陈述。专家、观众提问,参赛选手答疑。
(3)决赛时间:2022年11月27日。
大赛奖项
以进入复赛的各赛道有效团队为基数,设置奖项如下
一等奖:10%/赛道
二等奖:20%/赛道
三等奖:30%/赛道
进入决赛答辩的队伍将角逐由新网银行提供的竞赛奖金:
数据菁英奖:12,000元,1队/赛道
数据英才奖:6,000元,2队/赛道
数据人才奖:3,000元,2队/赛道
各获奖队伍将获得证书及奖金,数据菁英奖、数据英才奖队伍的指导教师获得优秀指导教师证书。证书由承办单位盖章,四川省教育厅发布获奖通知。
评分标准
初赛评分规则:
根据初始最终私榜队伍排名(AUC)换算成绩,换算公式如下:
初赛评分 = MAX(100 - 初赛评分排名,0)
初赛设置公私榜,初赛结束后线上排名由公榜切换为私榜排名
复赛评分规则:
复赛评分 = 80%* MAX(100 - 初赛评分排名,0) + 20%*主观评审成绩
其中:主观评审成绩总分100,包含以下维度:报告完整性(20%) ,代码规范性(20%) ,问题分析和探索(30%),方案创新性(30%) ,每项维度打分,分为5个档次,优异-100分,优秀-90分,良好-80分,中等-70分,中等以下60分。
决赛评分规则:
决赛评分 = 60%*复赛成绩 + 40%*答辩成绩
答辩演示成绩总分100,评价维度如下:现场陈述(20%) ,现场问答(20%),问题分析和探索(30%),方案创新性(30%) ,每项维度打分,分为5个档次,优异-100分,优秀-90分,良好-80分,中等-70分,中等以下60分。
参赛与组队规则
所有参赛人员及队伍,视为已同意《DC竞赛作弊管理规则》及其他相关规定。队长对其队员的参赛行为负责
参赛对象:大赛向在校学生开放
本科生仅可选赛道A:小微风控算法大赛-早期风险识别;
研究生及以上(硕士/博士)仅可选赛道B:小微风控算法大赛-长期风险识别。
全国在校大学生(本科、硕士/博士生)均可报名参加,本科生仅能参加本科生赛道,硕士/博士生仅能参加研究生赛道,每支队伍由不超过4名参赛选手及1名指导老师组成,指导老师必须是参赛选手所属院校在职教师,1名学生至多加入一支队伍,鼓励同学们跨学校、跨年级、跨专业组队参赛。
每天提交次数上限:5次
目前有101个团队参赛,包括西南财经大学等多个211院校。只要是全国高校学生都可以参加,分为研究生和本科生两个赛道。研究生赛道难度要大些,需要关联多个表单才能限制提升模型性能。本科生赛道可以直接对数据建模。
作者花半个小时实验了一下,线下AUC得分很高,本科生赛道可以达到0.819,研究生赛道可以达到0.826.
但提交数据后,效果不佳,只能达到0.76多,说明这次新网银行的验证数据集和训练数据集是不同时间段的,模型存在显著的过度拟合。建议各位同学在选择算法时,采用避免过度拟合的算法。
这是目前排行榜,本科生赛道第一名已经上了0.78,说明目前部分高校学生已经有专业建模能力。
这是关于模型竞赛的数据说明:
100个风险特征(人口统计特征,贷款与查询记录,企业工商司法信息等),一个客户对应一行记录;
风险标签:1个,由客户借款后是否出现首期逾期等特征加工,二分类(0、1);
样本量:总计2.5万;训练集数量17884,正样本占比10%,测试集数量7116(公榜3522,私榜3594),正样本占比5%;
说明:相关数据经过脱敏,分层抽样、模拟转换等处理,不涉及客户隐私,不反映金融机构真实业务数据指标。
我们可以看出新网银行可能出于合规考虑,把变量真实业务名称都屏蔽了。其实这不利于模型竞赛,不方便大家衍生变量处理。lending club,home credit数据集都展示了真实变量。作者认为我们通过建模和数据挖掘就是为了挖掘重要变量,然后反馈业务线。如果变量名被屏蔽了,模型竞赛没有太大真实意义,期待主办方可以有更开放行为。
我方通过初步测试,发现query_13是最重要变量,可能是查询记录。
关于模型AUC提升,我建议大家在描述性统计,变量选择,衍生变量和调参上多做功夫。描述性统计不能忽略,有的变量是无意义的需要剔除。衍生变量可以略微提升模型。变量筛选和调参是重头戏,也是最耗时部分。
如果有机器学习论文专利定制服务,请联系作者。
今年最新的新网银行模型竞赛就为大家介绍到这里,如果大家对消费金融的风控模型技术感兴趣,想在这次竞赛中提升模型性能,欢迎了解系列课《python金融风控评分卡模型和数据分析微专业课(加强版)》。课程对描述性统计,变量选择,衍生变量,调参,stacking融合模型,非平衡数据处理,评分卡,xgboost,lightgbm,catboost建模都有详细描述。
版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。