SP500 指数预测 — 使用雅虎股票价格进行时间序列预测。
项目 深网 在实现 赫蒂克 学校硕士 I DATA & AI
作者 : 茴香 AKEB
项目经理: Fadi El Cheikh Taha 和 鲁迈萨·奥马里
深网铅 : 马克斯·科恩
Git 仓库: 深网
介绍
什么是股票?
股票,也称为股权,是代表公司一小部分所有权的证券。股票所有者有权获得公司资产和利润的一部分,等于他或她所拥有的股票数量。
标准普尔 500 指数是基于在美国证券交易所上市的 500 家大型公司的股票市场指数。该指数由三大信用评级公司之一的标准普尔拥有和管理。按市值计算,它覆盖了大约 80% 的美国股票市场。
我们的目标
长期以来,股票价格预测一直让人们感兴趣,我们的目标是创建一个机器学习模型,能够在考虑黑天鹅事件的概念的同时,尽可能准确地预测市场价格的演变。
有几种已知的方法和新的研究正在寻找神奇的公式来进行股票预测。传统方法之一是时间序列预测。但股票预测中最具挑战性的问题之一是黑天鹅事件。
黑天鹅事件的概念
黑天鹅事件是完全出乎意料和不可预测的事件。事后可能会也可能不会对事件进行解释,但事前不会。在经济、市场和天气系统等复杂系统中,事件的发生通常有多种原因。
获取数据
该数据集来自 Kaggle Time Series Forecasting with Yahoo Stock Price。
这是标准普尔500指数的历史价格数据,是公开数据。在我们的例子中,数据集是从雅虎财经数据库中获得的。
SP500 股票价格的可视化
正如我们所看到的,SP500 随着时间的推移发生了重大变化,例如在 2020 年的火星上,由于 Covid19 的影响,价格大幅下跌。
然后我们可以查看数据的季节性,这对应于周期性重复模式的存在,然后观察曲线的趋势。
如果一开始很难在我们的数据集中识别季节性,我们可以很容易地观察到趋势是向上的。
移动平均线是技术分析中使用的财务指标。
它使您可以观察资产的演变,同时避免价格失常。有不同的类型,在这个项目中,我们选择实现算术移动平均线。因此,对于 30 天移动平均线,我们计算最近 30 个股票市场交易日的收盘价之和,然后我们将这个和除以 30。
价格回报代表价格在给定时间段内的波动,并以百分比表示。
在这里,我们选择计算前一天的变化百分比。
预处理
在开始实施我们的学习模型之前,重要的是选择哪些数据将用于获得良好的结果。
为了更好地了解时间序列,我们添加了年份和月份等变量。
机器学习模型
1-岭回归
岭回归的优点是避免过拟合。
我们的最终模型是可以概括模式以在训练和测试集上发挥最佳效果的模型。
当模型在训练数据上表现良好而在测试数据上表现不佳时,就会发生过拟合。
岭回归通过应用惩罚项(减少权重和偏差)来克服过度拟合。
然后我们可以绘制模型的性能以将其与实际值进行比较。
不同的性能统计数据用于确定我们的模型是否良好。
LSTM 模型
我们将实现一个简单的单变量神经网络,该网络仅基于每个会话的收盘价。
我们使用 Keras 和 Tensorflow 库来构建我们的模型。
长短期记忆网络 (LSTM) 是循环神经网络的扩展,可扩展其记忆。因此,它非常适合学习在两者之间有很长转变的基本经验。
LSTM 的单元用作 RNN 层的构建块,然后通常称为 LSTM 网络。
尽管我们的模型似乎遵循正确的趋势,但我们可以观察到我们的预测与曲线的实际值之间存在细微差距。这种差异可以使用平均绝对误差来估计。
因此,我们可以看到,预测值和实际值之间平均相差 85 美元。
结论
有了这些图,我们就完成了一个完整的端到端机器学习预测!如果我们想改进我们的模型 LSTM 模型可以通过使用现有的或我们自己创建的几个特征来提供更好的性能。
我们还可以尝试不同的超参数(设置)并测试更多不同的算法。
此外,我们希望每个人都喜欢阅读我们的文章。我们要感谢所有使这个项目成为可能的人,我们学校 HETIC 和总经理 Frédéric Sitterlé 允许 Deepnet 向我们提供他们的项目和协会 深网 由...领着 马克斯·科恩 和我们的教练。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/11634/49080311
标签:深网,雅虎,预测,模型,LSTM,SP500,我们 From: https://www.cnblogs.com/amboke/p/16652289.html