首页 > 其他分享 >金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测股票价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)

金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测股票价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)

时间:2023-07-08 11:25:17浏览次数:48  
标签:预测 模型 py 适用 随机 归一化 LSTM 数据 ARMA

金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测股票价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)

1.使用CNN模型预测未来一天的股价涨跌-CNN(卷积神经网络)

使用CNN模型预测未来一天的股价涨跌

数据介绍

open 开盘价;close 收盘价;high 最高价

low 最低价;volume 交易量;label 涨/跌

训练规模

特征数量×5;天数×5 = 5 × 5

卷积过程

最大池化过程

代码流程

  1. 获取股票数据
  2. 数据归一化
  3. 数据预处理(划分成5×5)
  4. 数据集分割(训练集和测试集)
  5. 定义卷积神经网络
  6. 评估预测模型

模型架构

码源链接见文末跳转

文末链接跳转

2.基于LSTM预测股票价格(长短期记忆神经网络)

基于LSTM预测股票价格(简易版)

数据集:

沪深300数据

数据特征:

只选用原始数据特征(开盘价、收盘价、最高价、最低价、交易量)

时间窗口:

15天

代码流程:

读取数据->生成标签(下一天收盘价)->分割数据集->LSTM模型预测->可视化->预测结果评估

LSTM网络结构:

函数介绍:

1、generate_label 生成标签(下一天收盘价)

2、generate_model_data 分割数据集

3、evaluate 结果评估

4、lstm_model LSTM预测模型

5、main 主函数(含可视化)

可视化输出:

训练集测试集拟合效果:

评估指标:

1、RMSE:55.93668241713906

2、MAE:44.51361108752264

3、MAPE:1.3418267677320612

4、AMAPE:1.3420384401412058

3.基于随机森林预测股票未来第d+k天相比于第d天的涨/跌Random-Forest(随机森林)

基于随机森林预测股票未来第d+k天相比于第d天的涨/跌(简易版)

参考论文:Predicting the direction of stock market prices using random forest

论文流程:

算法流程:

获取金融数据->指数平滑->计算技术指标->数据归一化->随机森林模型预测

函数介绍:

1、get_stock_data 通过Tushare获取原始股票数据

2、exponential_smoothing、em_stock_data 股票指数平滑处理

3、calc_technical_indicators 计算常用的技术指标

4、normalization 数据归一化处理并分割数据集

5、random_forest_model 随机森林模型并返回准确率和特征排名

决策树:

(1)ID3: 基于信息增益大的数据特征划分层次

(2)C4.5: 基于信息增益比=信息增益/特征熵划分层次

(3)CART: 基于Gini划分层次

基于Bagging集成学习算法,有多棵决策树组成(通常是CART决策树),其主要特性有:

(1)样本和特征随机采样

(2)适用于数据维度大的数据集

(3)对异常样本点不敏感

(4)可以并行训练(决策树间独立同分布)

算法输出:

注意:算法仅用于参考学习交流,由于是研一时期独立编写(以后可能进一步完善),所公开的代码并非足够完善和严谨,如以下问题:

  1. 模型涉及参数未寻优(可考虑网格搜索、随机搜索、贝叶斯优化)

    1. 指数平滑因子

    2. 随机森林模型树数量、决策树深度、叶子节点最小样本数等

    3. 未来第k天的选择

    4. 归一化方法

  2. 随机森林模型其实本身不需要数据归一化(如算法对数据集进行归一化也需要考虑对训练集、验证集、测试集独立归一化)

  3. 股票预测考虑的数据特征:

    1. 原始数据特征(open/close/high/low)

    2. 技术指标(Technical indicator)

    3. 企业公开公告信息

    4. 企业未来规划

    5. 企业年度报表

    6. 社会舆论

    7. 股民情绪

    8. 国家政策

    9. 股票间影响等

4.模型输出结果

5.随机森林参数优化参考表

4.基于ARMA预测股票价格-ARMA(自回归滑动平均模型)

基于ARMA预测股票价格(5分钟数据)

1.检测数据平稳化

2.差分/对数等数据处理

3.使用ARMA模型预测

备注:部分代码参考网络资源

5.金融时间序列相似度计算

5.1.皮尔逊相关系数( pearson_correlation_coefficient)

1.1 由于不同股票价格范围差距过大,在进行股票时间序列相似度匹配过程中通常考虑对数差处理,其公式如下所示:

1.2经过对数差处理后的金融时间序列可表示:

1.3皮尔逊相关系数计算公式:

1.4结果

1.4.1相关性较强

1.4.2相关性较弱

5.2.动态时间规整(dynamic_time_wrapping)

2.1 计算两个金融时间序列的时间点对应数据的欧氏距离

2.2 更新时间点对应数据的距离

2.3 动态时间规整距离

2.4 伪代码

2.5 动态时间规整距离输出图举例

2.6 动态时间规整最优匹配对齐

2.7结果

2.7.1动态时间规整距离较短

2.7.1动态时间规整距离较长

5.3.余弦相似度(cosine similarity)

6.金融时间序列(其他)

6.1.计算特征方差(calc_variance.py)

open 161211.21669504658
close 161415.73886306392
high 166077.6958545937
low 156622.3645795179
......

6.2.绘制混淆矩阵(confuse_matrix.py)

6.3.特征间相关性(corr.py)

6.4.绘制预测模型性能——柱状图(result_bar.py)

6.5.绘制预测模型性能——折线图(result_plot.py)

6.6.相似金融时间序列绘制(similarity_time_series.py)

6.7.计算分类的评价指标(evaluation.py)

(1)准确率Accuracy

(2)精确率Precision

(3)召回率Recall

(4)特异度Specificity

(5)综合评价指标F-measure

(6)马修斯相关系数MCC(Matthews Correlation Coefficient)

6.8.窗口数据归一化(normalization.py)

(1)z-score标准化(std)

(2)最大最小归一化(maxmin)

6.9.股票数据下载(download.py)

(1)tushare接口

(2)JQdata接口

6.10.roc曲线绘制(roc.py)

6.11.混淆矩阵绘制(confusion_matrix.py)

6.12.卡尔曼滤波(kalmanfilter.py)

6.13.蜡烛图 (candle.py)

码源链接见文末跳转

文末链接跳转

更多优质内容请关注公号&知乎:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。

标签:预测,模型,py,适用,随机,归一化,LSTM,数据,ARMA
From: https://www.cnblogs.com/ting1/p/17536922.html

相关文章

  • TCN时间卷积网络——解决LSTM的并发问题
    TCN是指时间卷积网络,一种新型的可以用来解决时间序列预测的算法。在这一两年中已有多篇论文提出,但是普遍认为下篇论文是TCN的开端。论文名称:AnEmpiricalEvaluationofGenericConvolutionalandRecurrentNetworksforSequenceModeling作者:ShaojieBai1J.ZicoKolter2Vl......
  • Karmada 部署与使用体验
    初始化karmada控制平面kubectlkrewinstallkarmadakubectlkarmadainit--kube-image-registry='registry.cn-hangzhou.aliyuncs.com/google_containers'查看karmada控制平面创建的资源kubectlgetdeployments-nkarmada-systemkubectlgetstatefulsets-nkarmad......
  • x64 架构,也称作AMD64或Intel 64,是指一种64位的处理器架构,是对x86架构的扩展和升级。x6
    x64架构,也称作AMD64或Intel64,是指一种64位的处理器架构,是对x86架构的扩展和升级。x64架构支持更大的内存寻址范围和更高的性能,适用于运行64位操作系统和应用程序。x64架构最早由AMD引入,并在2003年取得了广泛的市场认可。随后,Intel也推出了兼容x64架构的处理器。目前,绝大多数......
  • 时间序列预测-基于LSTM-CNN的人体活动识别
    本文主要利用LSTM和CNN来处理移动传感器产生的数据识别人类活动。传感器数据集数据组成这个项目使用了WISDM(WirelessSensorDataMining)Lab实验室公开的Actitracker的数据集其中数据:测试记录:1,098,207条行为类型:6种走路慢跑上楼梯下楼梯坐站立传感器类......
  • vane 一个适用于前端打工人的全栈框架,nodejs+vue3+typescript
    vane写这个的初衷是因为每次用node写接口的时候总是需要一些写大一堆的东西,也有些人把很多接口都放在一个js文件内,看起来很是杂乱,后来用到nuxt写的时候,感觉用文件名来命名接口路径很是方便,无论是query参数还是params参数,都可以通过文件名来命名,也可以通过文件夹层级......
  • CC2541是功率优化的真正系统级芯片(SoC)解决方案,适用于蓝牙低功耗(BLE)和专用的2.4GH
    CC2541是功率优化的真正系统级芯片(SoC)解决方案,适用于蓝牙低功耗(BLE)和专用的2.4GHz应用.该SOC芯片集成性能极好RF收发器以及标准工业级增强型8051内核,支持系统编程Flash,8KRAM及强大功能支持跟外设。微信号:13632658391 深圳市动能世纪科技有限公司成立于2000年,是一家IC集成......
  • 昆仑通泰暖通空调中央空调控制组态程序,适用于绝大多数西门子方案暖通空调自控系统
    昆仑通泰暖通空调中央空调控制组态程序,适用于绝大多数西门子方案暖通空调自控系统原创文章,转载请说明出处,资料来源:http://imgcs.cn/5c/613215881257.html......
  • cruise仿真模型,四轮驱动。 轮毂电机,轮边电机驱动cruise动力性经济性仿真模型,base模型
    cruise仿真模型,四轮驱动。轮毂电机,轮边电机驱动cruise动力性经济性仿真模型,base模型,适用轮边电机驱动及轮毂电机驱动。可进行动力性经济性仿真分析,控制策略包含扭矩控制及能量回收控制使用c-code编写,提供策略说明文档,模型均为本人原创搭建原创文章,转载请说明出处,资料来源:http://i......
  • 如何高度优化适用于企业的AI (二) 数据准备
    我们先从快速浏览整个过程首先,我们需要数据,要尽可能使用CSV/Json格式,基于这些信息,我们要让AI获取所有所需要的信息来正确的完成它的工作准备数据,微调过程需要很长的书剑才能运行,我们肯定是不希望出现错误的,所以我们使用OpenAI的数据准备工具(CLItool)来处理我们......
  • 如何高度优化适用于企业自定义的AI (一) 序言
    概述在当前信息时代的背景下,社会对AI的需求在不断增长.AI的快速发展得益于大数据、云计算和计算能力的提升,使得机器学习和深度学习等技术取得了重大突破.AI在图像识别、语音识别、自然语言处理等领域展现出惊人的能力,为企业带来了巨大的商机.然而,通用的AI解决方案无法......