首页 > 其他分享 >TipDM数据挖掘案例:金融服务机构的资金流量预测

TipDM数据挖掘案例:金融服务机构的资金流量预测

时间:2025-01-09 17:29:23浏览次数:3  
标签:金融服务 如图 检验 组件 TipDM 所示 数据挖掘 平稳性 amt

1 项目背景

某金融服务机构拥有上亿会员,并且业务场景中每天都涉及大量的资金流入和流出,面 对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常 业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。企业希望能精准预测未 来每日的资金流入流出情况。对货币基金而言,资金流入意味着申购行为。资金流出意味着 赎回行为。

2 项目目标

基于企业希望精确预测资金流入流出数量的需求,设定项目目标为:预测蚂蚁金服次月 每天的申购总额。

3 项目步骤

3.1 工程前期准备
3.1.1 导入数据

(1) 介绍数据

用户申购赎回数据表:表中包含 2013 年 7 月 1 日 至 2014 年 8 月 31 日的申购和赎回 信息、以及所有的子类目信息。数据经过脱敏处理,脱敏之后的数据,基本保持了原数据分 布。数据主要包括用户操作时间和操作记录,其中操作记录包括申购和赎回两个部分。金额 的单位是分,即 0.01 元人民币。 如果用户今日消费总量为 0,即 consume_amt=0,则四个子类目为空。如表 3-1 所示。

表 3-1 用户申购赎回数据表

属性

含义

示例

user_id

用户 id

1234

report_date

日期

20140407

tBalance

今日余额

109004

yBalance

昨日余额

97389

total_purchase_amt

今日总购买量 = 直接购 买 + 收益

21876

direct_purchase_amt

今日直接购买量

21863

purchase_bal_amt

今日支付宝余额购买量

0

purchase_bank_amt

今日银行卡购买量

21863

total_redeem_amt

今日总赎回量 = 消费 + 转出

10261

consume_amt

今日消费总量

0

transfer_amt

今日转出总量

10261

tftobal_amt

今日转出到支付宝余额总量

0

tftocard_amt

今日转出到银行卡总量

10261

share_amt

今日收益

13

category1

今日类目 1 消费总额

0

category2

今日类目 2 消费总额

0

category3

今日类目 3 消费总额

0

category4

今日类目 4 消费总额

0

(2) 上传数据到 Python 数据挖掘建模平台

在新增数据源上,选择本地上传数据,如图 1 所示。

图 1 本地上传数据源

在本地路径上选择文件,填写在平台新建的目标表名,如图 2 所示。

图 2 本地选择文件上传

根据文件的数据,可以修改文件的字段名和类型,如图 3 所示。

图 3 字段设置

上传成功,可以在平台的数据源上查看数据,单击数据源操作的查看按钮如图 4 所示, 数据预览如图 5 所示。

图 4 单击预览数据按钮

图 5 数据预览

3.1.2 新建空白工程

右击我的工程,新建一个空白的工程,如图 6 所示。

图 6 新建工程

填写工程的信息,包括工程名称和工程描述,如图 7 所示。

图 7 填写工程信息

3.2 数据预处理

读取 total_purchase_amt 数据,步骤如图 8 所示。

(1) 选择工程。

(2) 选择输入源组件。

(3) 拖入输入源组件。

(4) 填写数据表名。

(5) 单击更新按钮,更新出数据。

图 8 输入源组件

3.2.1 缺失值处理

数据可能存在缺失值,先对数据进行缺失值处理,步骤如错误!未找到引用源。所示。

(1) 找到预处理→缺失值处理组件。

(2) 拖入缺失值处理组件,并将输入源和缺失值处理组件连接。

(3) 单击更新按钮,勾选全部数据的字段作为输出字段。

(4) 对缺失值处理组件右键,选择运行该节点。

图 9 缺失值处理组件

(5) 运行完成后,对缺失值处理组件右键,选择查看数据,如错误!未找到引用源。所示。

图 10 缺失值处理结果

3.2.2 平稳性检验

选择平稳性检验,步骤如图 11 所示。

(1) 找到统计分析→平稳性检验。

(2) 拖入平稳性检验组件,将缺失值处理和平稳性检验组件连接。

(3) 单击更新按钮,时序特征勾选 total_purchase_amt 字段作为检验字段。

(4) 对平稳性检验组件右键,选择运行该节点。

图 11 平稳性检验组件

(5) 运行完成后,对平稳性检验组件右键,选择查看报告,平稳性检验的报告结果如图 12所示。

图 12 平稳性检验报告

3.2.3 纯随机性检验

选择平稳性检验,步骤如图 13 所示。

(1) 找到统计分析→纯随机性检验。

(2) 拖入平稳性检验组件,将缺失值处理和纯随机性检验组件连接。

(3) 单击更新按钮,特征勾选 total_purchase_amt 字段作为检验字段。

(4) 对纯随机性检验组件右键,选择运行该节点。

图 13 纯随机性检验组件

(5) 运行完成后,对纯随机性检验组件右键,选择查看报告,纯随机性检验的报告结果

如图 14 所示。

图 14 纯随机性检验报告

3.3 模型构建
3.3.1 ARIMA 算法

选择 ARIMA 算法模型,步骤如图 15、图 16 所示。

(1) 找到时序模型ARIMA 组件。

(2) 拖入 ARIMA 组件,将生成训练数据和 ARIMA 组件连接。

(3) 选择字段属性,单击更新数据,时序列勾选 total_purchase_amt 字段,时间列勾选 report_date 字段。

(4) 选择参数设置,设置预测周期数的值为 10 ,设置自回归项数p 的值为 7,设置差分 次数 d 的值为 1,设置移动平均项数 q 的值为 2。

图 15 ARIMA 组件_字段属性

图 16 ARIMA 组件_参数设置

(5) 运行完成后,对 ARIMA 组件右键,选择查看报告,ARIMA 的报告如图 17 所示。

图 17 ARIMA 的报告

试用请访问:https://eb.tipdm.org:10078,自行注册即可。

标签:金融服务,如图,检验,组件,TipDM,所示,数据挖掘,平稳性,amt
From: https://blog.csdn.net/class4715/article/details/145033851

相关文章

  • 【机器学习与数据挖掘实战】案例08:基于Apriori算法的商品零售购物篮分析
    【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋......
  • 【数据挖掘】深度高斯过程
    深度高斯过程(DeepGaussianProcess,DGP)是一种结合高斯过程(GaussianProcess,GP)和深度学习的模型,旨在将高斯过程的非参数灵活性与深度模型的分层特征学习能力相结合。它可以看作是高斯过程的深度扩展,通过多个隐藏层的高斯过程构建非线性映射。核心特点分层结构深度高......
  • 制药行业数据挖掘之药效评估
    一、引言药效评估是制药行业新药研发及已上市药物再评价的关键环节,直接关系到药物能否成功上市、合理应用及后续改进。传统药效评估方法耗时耗力且样本量有限,数据挖掘技术的引入为更精准、高效地评估药效开辟了新途径。以下将详细阐述如何利用数据挖掘进行制药行业的药效评估......
  • 制药行业数据挖掘之新药研发
    一、引言在制药行业,新药研发是一个高投入、高风险、长周期的过程。数据挖掘技术的应用能够有效整合海量的研发数据,挖掘潜在信息,助力研发决策,提高成功率。本文将以某制药公司研发一款抗癌新药为例,详细阐述数据挖掘在新药研发中的实施步骤、具体方法及分析过程。二、数据挖掘......
  • 互联网行业数据挖掘之用户流失挽留
    一、案例背景某电商平台在过去一年用户增长逐渐放缓,同时发现用户流失率有所上升,这直接影响了平台的销售额与长期发展。为了扭转这一局面,平台决定利用数据挖掘技术,深入分析用户行为,找出用户流失的关键因素,进而制定有效的挽留策略。二、数据挖掘实施步骤数据收集用户基本信......
  • 数据挖掘——数据预处理
    数据挖掘——数据预处理数据预处理数据预处理——主要任务数据清洗如何处理丢失的数据如何处理噪声数据如何处理不一致数据数据集成相关分析相关系数(也成为皮尔逊相关系数)协方差数据规约降维法:PCA主成分分析降数据——抽样法数据压缩数据预处理数据预处理—......
  • 数据挖掘算法之【8k 字详解FpGrowth算法】—— 附加python代码案例
    大家好,我是摇光~,用大白话讲解所有你难懂的知识点之前用大白话讲了Apriori算法,如果不懂Apriori算法,可以去看这篇文章:7k字详解Apriori算法我们在说Apriori算法的时候,讲过他的缺点,因为要对数据库做频繁的遍历,会产品大量的候选项集,增加计算的复杂性。比如长度为1的频......
  • 互联网行业数据挖掘之用户营销
    一、引言在互联网行业高度竞争的当下,精准的用户营销成为企业脱颖而出的关键。数据挖掘作为一种强大的技术手段,能够从海量数据中提取有价值的信息,助力企业洞察用户需求、优化营销策略。本文将详细阐述如何针对互联网行业开展用户营销的数据挖掘工作,包括实施步骤、具体挖掘与分......
  • 互联网行业数据挖掘之用户增长
    一、引言在竞争白热化的互联网行业,用户增长是企业持续发展的核心驱动力。数据挖掘技术宛如一把精准的手术刀,能够剖析海量用户数据,挖掘潜在增长点,为企业制定行之有效的用户增长策略提供有力支撑。接下来,将全方位阐述针对互联网行业用户增长的数据挖掘方案,涵盖实施步骤、具体挖......
  • 制造业行业数据挖掘之质量控制
    一、案例背景某汽车零部件制造企业主要生产发动机缸体等关键零部件,产品供应给多家知名汽车制造商。随着汽车行业竞争的加剧以及对产品质量要求的不断提高,企业面临着严格的质量标准和客户的高期望。尽管企业已经实施了传统的质量控制方法,但仍存在一定比例的次品率,且难以提前预......