说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。
1.项目背景
随着信息技术的发展和传感器设备的广泛应用,时间序列数据的产生量急剧增加。无论是股市价格的波动、电力消耗的趋势还是环境监测的数据变化,准确地预测这些序列数据对于决策制定至关重要。然而,传统的统计方法在处理大规模、高维度且具有复杂模式的时间序列数据时面临诸多挑战。因此,寻找一种能够高效处理此类数据的预测方法变得尤为关键。
循环神经网络(RNN),特别是长短期记忆网络(LSTM),因其强大的学习长期依赖性能力,在时间序列预测任务中展现出巨大的潜力。LSTM通过引入输入门、遗忘门和输出门等机制,能够有效地学习时间序列中的复杂模式,并且在一定程度上缓解了梯度消失问题,使得模型能够更准确地进行长期预测。
通过这个项目,我们希望能够展示LSTM在处理时间序列数据方面的优越性,并为相关领域的研究者和从业者提供一个可参考的实践案例,促进深度学习技术在时间序列分析中的进一步应用和发展。
本项目通过Python基于TensorFlow实现时间序列循环神经网络回归模型(LSTM时间序列回归算法)项目实战。
2.数据获取
本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:
编号 | 变量名称 | 描述 |
1 | date | |
2 | y | 因变量 |
数据详情如下(部分展示):
3.数据预处理
3.1 用Pandas工具查看数据
使用Pandas工具的head()方法查看前五行数据:
关键代码:
3.2数据缺失查看
使用Pandas工具的info()方法查看数据信息:
从上图可以看到,总共有2个变量,数据中有缺失值,共2976条数据。
关键代码:
3.3数据描述性统计
通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。
关键代码如下:
3.4数据缺失值处理
数据缺失值采用均值填充,处理后,统计信息如下:
通过上图可以看到,数据缺失值已处理完成。
3.5数据异常值检测
采用z-score原则进行检测,检测结果如下:
通过上图可以看到,数据中无异常值。
4.探索性数据分析
4.1 y变量分布直方图
用Matplotlib工具的hist()方法绘制直方图:
5.特征工程
5.1 数据归一化
关键代码如下:
5.2 构建特征数据和标签数据
关键代码如下:
5.3 数据集拆分
关键代码如下:
5.4 构建批数据
关键代码如下:
6.构建LSTM时间序列回归模型
主要使用LSTM回归算法,用于目标回归。
6.1 构建模型
编号 | 模型名称 | 参数 |
1 | LSTM时间序列模型 | units |
2 | epochs |
6.2 模型摘要信息
6.3 模型训练集测试集损失曲线图
7.模型评估
7.1评估指标及结果
评估指标主要包括R方、均方误差、解释性方差、绝对误差等等。
模型名称 | 指标名称 | 指标值 |
测试集 | ||
LSTM时间序列回归模型 | R方 | 0.9909 |
均方误差 | 0.0003 | |
解释方差分 | 0.9915 | |
绝对误差 | 0.0144 |
从上表可以看出,R方分值为0.9909,说明模型效果比较好。
关键代码如下:
7.2 真实值与预测值对比图
从上图可以看出真实值和预测值波动基本一致,模型效果良好。
7.3 未来值预测绘图
8.结论与展望
综上所述,本文采用了LSTM时间序列回归算法来构建回归模型,最终证明了我们提出的模型效果良好。此模型可用于日常产品的预测。
X = [] # 初始特征数据集为空列表
y = [] # 初始标签数据集为空列表,y标签为样本的下一个点,即预测点
start = 0 # 初始位置
end = dataset_filled.shape[0] - seq_len # 截止位置,dataset_filled.shape[0]就是有多少条
for i in range(start, end): # for循环构造特征数据集
sample = dataset_filled[i: i + seq_len] # 基于时间跨度seq_len创建样本
label = dataset_filled[i + seq_len] # 创建sample对应的标签
X.append(sample) # 保存sample
y.append(label) # 保存label
# 返回特征数据集和标签集
return np.array(X), np.array(y)
# 获取方式:
# 项目实战合集导航:
# https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
# https://item.taobao.com/item.htm?ft=t&id=834667413889
# y变量分布直方图
fig = plt.figure(figsize=(8, 5)) # 设置画布大小
plt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
data_tmp = df['y'] # 过滤出y变量的样本
# 绘制直方图 bins:控制直方图中的区间个数 auto为自动填充个数 color:指定柱子的填充色
plt.hist(data_tmp, bins='auto', color='g') # 绘图
plt.xlabel('y') # 设置x轴名称
plt.ylabel('数量') # 设置y轴名称
plt.title('y变量分布直方图') # 设置标题名称
plt.show() # 展示图片
'欢迎关注下方公众号,谢谢'
标签:plt,Python,回归,直方图,序列,LSTM,数据,模型
From: https://blog.csdn.net/weixin_42163563/article/details/142422896