时间序列分析是数据科学和机器学习领域最广泛的主题之一:无论是预测金融事件、能源消耗、产品销售还是股票市场趋势,这一领域一直是企业非常感兴趣的领域。
随着机器学习模型的不断进步,使除了传统的统计预测方法(如回归模型、ARIMA模型、指数平滑)外,与机器学习(如基于树的模型)和深度学习(如LSTM网络、cnn、基于Transformer的模型)相关的技术已经出现了一段时间。
尽管这些技术之间存在巨大差异,但无论模型是什么,都必须完成一个初步步骤:探索性数据分析。
在统计学中,探索性数据分析(Exploratory Data Analysis, EDA)是对数据进行分析和可视化,以总结数据的主要特征并从中获得相关信息的一门学科。这在数据科学领域非常重要,因为它可以为另一个重要步骤奠定基础:特征工程。
所以我们今天这篇文章将总结一个时间序列数据的分析模板,可以总结和突出数据集的最重要特征。我们将使用一些常见的Python库,如Pandas、Seaborn和Statsmodel。
为了方便演示,将使用Kaggle的小时能耗数据。该数据集与PJM小时能源消耗数据有关,PJM是美国的一个区域输电组织,为几个州提供电力。每小时的电力消耗数据来自PJM的网站,单位是兆瓦。
我在本文中我们将EDA总结为六个步骤:描述性统计、时间图、季节图、箱形图、时间序列分解、滞后分析。
https://avoid.overfit.cn/post/a29fb376d9f145fcad2e9c82cea7ea51
标签:数据分析,指南,探索性,模型,PJM,序列,数据 From: https://www.cnblogs.com/deephub/p/18193456