首页 > 其他分享 >【机器学习(十三)】机器学习回归案例之股票价格预测分析—Sentosa_DSML社区版

【机器学习(十三)】机器学习回归案例之股票价格预测分析—Sentosa_DSML社区版

时间:2024-10-15 10:10:44浏览次数:7  
标签:plt 机器 column dataset test Sentosa DSML close label

@

目录

一、背景描述

  股票价格是一种不稳定的时间序列,受多种因素的影响。影响股市的外部因素很多,主要有经济因素、政治因素和公司自身因素三个方面的情况。自股票市场出现以来,研究人员采用各种方法研究股票价格的波动。随着数理统计方法和机器学习的广泛应用,越来越多的人将机器学习等预测方法应用于股票预测中,如神经网络预测、决策树预测、支持向量机预测、逻辑回归预测等。
  XGBoost是由TianqiChen在2016年提出来,并证明了其模型的计算复杂度低、运行速度快、准确度高等特点。XGBoost是GBDT的高效实现。在分析时间序列数据时,GBDT虽然能有效提高股票预测结果,但由于检测速率相对较慢,为寻求快速且精确度较高的预测方法,采用XGBoost模型进行股票预测,在提高预测精度同时也提高预测速率。可以利用XGBoost网络模型对股票历史数据的收盘价进行分析预测,将真实值和预测值进行对比,最后通过评估算子来评判XGBoost模型对股价预测的效果。
  数据集通过爬虫获取从2005年开始到2020年的股票(代码为 510050.SH)历史数据,下表展示了股票在多个交易日内的市场表现,主要字段包括:

字段 含义
ts_code 股票代码
trade_date 交易日期
pre_close 前一个交易日的收盘价
open 开盘价
high 当日最高价
low 当日最低价
close 当日收盘价
change 收盘价变化值(与前一日相比的差值)
pct_chg 收盘价变化百分比
vol 成交量
amount 成交金额
label 标记某日涨跌情况

  这些字段全面记录了股票每天的价格波动和交易情况,用于后续分析和预测股票趋势。

二、Python代码和Sentosa_DSML社区版算法实现对比

(一) 数据读入

1、python代码实现
  导入需要的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import rcParams
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import xgboost as xgb

  数据读入

dataset = pd.read_csv('20_year_FD.csv')
print(dataset.head())

2、Sentosa_DSML社区版实现、

  首先,利用文本算子从本地文件读入股票数据集。
在这里插入图片描述

(二) 特征工程

1、python代码实现

def calculate_moving_averages(dataset, windows):
    for window in windows:
        column_name = f'MA{window}'
        dataset[column_name] = dataset['close'].rolling(window=window).mean()
    dataset[['close'] + [f'MA{window}' for window in windows]] = dataset[['close'] + [f'MA{window}' for window in windows]].round(3)
    return dataset

windows = [5, 7, 30]
dataset = calculate_moving_averages(dataset, windows)

print(dataset[['close', 'MA5', 'MA7', 'MA30']].head())

plt.figure(figsize=(14, 7))
plt.plot(dataset['close'], label='Close Price', color='blue')
plt.plot(dataset['MA5'], label='5-Day Moving Average', color='red', linestyle='--')
plt.plot(dataset['MA7'], label='7-Day Moving Average', color='green', linestyle='--')
plt.plot(dataset['MA30'], label='30-Day Moving Average', color='orange', linestyle='--')
plt.title('Close Price and Moving Averages')
plt.xlabel('Date')
plt.ylabel('Price')
plt.legend()
plt.show()

在这里插入图片描述

得到实际股价与平均股价的差值的绝对值,观察偏离水平。

def calculate_deviation(dataset, ma_column):
    deviation_column = f'deviation_{ma_column}'
    dataset[deviation_column] = abs(dataset['close'] - dataset[ma_column])
    return dataset

dataset = calculate_deviation(dataset, 'MA5')
dataset = calculate_deviation(dataset, 'MA7')
dataset = calculate_deviation(dataset, 'MA30')

plt.figure(figsize=(10, 6))
plt.plot(dataset['deviation_MA5'], label='Deviation from MA5')
plt.plot(dataset['deviation_MA7'], label='Deviation from MA7')
plt.plot(dataset['deviation_MA30'], label='Deviation from MA30')
plt.legend(loc='upper left')
plt.title('Deviation from Moving Averages')
plt.show()

在这里插入图片描述

def calculate_vwap(df, close_col='close', vol_col='vol'):
    if close_col not in df.columns or vol_col not in df.columns:
        raise ValueError(f"DataFrame must contain '{close_col}' and '{vol_col}' columns.")
    try:
        cumulative_price_volume = (df[close_col] * df[vol_col]).cumsum()
        cumulative_volume = df[vol_col].cumsum()
        vwap = np.where(cumulative_volume == 0, np.nan, cumulative_price_volume / cumulative_volume)
    except Exception as e:
        print(f"Error in VWAP calculation: {e}")
        vwap = pd.Series(np.nan, index=df.index)
    return pd.Series(vwap, index=df.index)
dataset['VWAP'] = calculate_vwap(dataset)
def generate_signals(df, close_col='close', vwap_col='VWAP'):
    if close_col not in df.columns or vwap_col not in df.columns:
        raise ValueError(f"DataFrame must contain '{close_col}' and '{vwap_col}' columns.")

    signals = pd.Series(0, index=df.index)

    signals[(df[close_col] > df[vwap_col]) & (df[close_col].shift(1) <= df[vwap_col].shift(1))] = 1  # 买入信号
    signals[(df[close_col] < df[vwap_col]) & (df[close_col].shift(1) >= df[vwap_col].shift(1))] = -1  # 卖出信号
    return signals

dataset['signal'] = generate_signals(dataset)
print(dataset[['close', 'VWAP', 'signal']].head())

2、Sentosa_DSML社区版实现
  移动平均线是一种常用的技术指标,通过计算移动平均来分析股票的价格走势,帮助识别市场趋势,并为交易决策提供参考。根据不同的窗口大小(5天、7天、30天)来计算股票的收盘价的移动平均线,移动平均线可以平滑股价的短期波动,从而更好地识别股票的长期趋势。短期的 5 日、7 日移动平均线通常用来捕捉股票的短期趋势,帮助交易者快速做出买入或卖出的决策。30 日移动平均线则代表中长期趋势,帮助识别更广泛的市场方向。通过绘制图表,可以直观地看到收盘价格及其对应的移动平均线,方便观察价格变化和趋势。
  利用生成列算子,通过设定的生成列表达式计算的新列的值,并设置列名,这里生成列分别为 moving_avg_5d、 moving_avg_7d、 moving_avg_30d,分别表示不同周期(5天、7天、30天)的移动平均线。
在这里插入图片描述
  表达式为SQL窗口函数,

AVG(`close`) OVER ( ROWS BETWEEN 4 PRECEDING AND CURRENT ROW)
AVG(`close`) OVER ( ROWS BETWEEN 4 PRECEDING AND CURRENT ROW)
AVG(`close`) OVER ( ROWS BETWEEN 4 PRECEDING AND CURRENT ROW)

在这里插入图片描述
  连接折线图算子,选择收盘价实际值和移动平均线,进行图表展示。
在这里插入图片描述
  得到结果如下,可以直观地看到收盘价格及其对应的移动平均线,方便观察价格变化和趋势。
在这里插入图片描述
  再利用生成列算子,计算股票价格与不同周期的移动平均线的偏差的绝对值,得出当前价格偏离移动平均线的程度,观察偏离水平。偏差值越大,意味着价格波动越剧烈,可能处于较强的上涨或下跌趋势中。偏差值越小,意味着价格与均值靠近,波动较小,市场可能处于震荡或横盘阶段。
  如果偏差持续扩大,说明价格远离均值,可能面临较大的回调风险或即将突破某个方向。
  如果偏差开始收窄,说明价格回归均值,可能表明市场趋势趋于稳定或发生反转。
  这里设置生成列列名分别为deviation_MA5、 deviation_MA7、deviation_MA30,分别表示不同周期得偏差。
  生成列值得表达式如下:

abs(`close`-` moving_avg_5d`)
abs(`close`-` moving_avg_7d`)
abs(`close`-` moving_avg_29d`)

在这里插入图片描述
  右键生成列算子预览可以得到数据展示。
在这里插入图片描述
  或者利用图表算子对偏差值进行可视化图表展示,通过对偏差值进行可视化展示,绘制偏差曲线,可以直观呈现实际收盘价格与移动平均线之间的偏离趋势,不仅有助于揭示市场波动的幅度,还能为识别潜在的价格反转或趋势变化提供重要依据,能够更精准地判断市场的动向,从而优化决策流程并降低交易风险。
在这里插入图片描述
  然后,基于交易量计算加权平均价格,反映特定时间段内股票的平均成交价格,考虑成交量的影响。计算公式是用股票的收盘价(close)乘以交易量(vol),然后计算加权收盘价的累积和,除以交易量的累积和。
  利用生成列算子设置列名,并构造生成列表达式计算成交量加权平均值。
在这里插入图片描述
  当股票的收盘价(close)大于成交量加权平均值时,signal 设置为 1,表示一个买入信号,股票价格处于强势。
  当股票的收盘价小于等于成交量加权平均值时,signal 为 0,表示弱势,可以用于做空或保持观望。这个信号可以作为简单的策略来指导交易决策。
  利用选择算子,对数据按照表达式trade_date;close>成交量加权平均对数据进行选择。
在这里插入图片描述
  并连接删除和重命名算子将进行条件判断后得列修改列名为signal,表示交易决策的指导信号。
在这里插入图片描述
  再连接合并算子,将数据利用关键字trade_date将特征列进行合并。
在这里插入图片描述
  右键预览,可观察合并后的数据情况,也可以连接表格算子对数据进行表格输出。
在这里插入图片描述

(三) 样本分区

1、python代码实现
  对数据进行预处理和顺序分区。

def preprocess_data(dataset, columns_to_exclude, label_column):
    if label_column not in dataset.columns:
        raise ValueError(f"Label column '{label_column}' not found in dataset.")
    dataset[columns_to_exclude] = None

    for column in columns_to_convert:
        if column in dataset.columns:
            dataset[column] = pd.to_numeric(dataset[column], errors='coerce')
        else:
            print(f"Warning: Column '{column}' not found in dataset.")
    dataset.fillna(0, inplace=True)
    return dataset
def split_data(dataset, label_column, train_ratio=0.8):
    dataset.sort_values(by='trade_date', ascending=True, inplace=True)
    split_index = int(len(dataset) * train_ratio)

    train_set = dataset.iloc[:split_index]
    test_set = dataset.iloc[split_index:]

    return train_set, test_set
def prepare_dmatrix(train_set, test_set, label_column):
    if label_column not in train_set.columns or label_column not in test_set.columns:
        raise ValueError(f"Label column '{label_column}' must be in both training and testing sets.")

    dtrain = xgb.DMatrix(train_set.drop(columns=[label_column]), label=train_set[label_column])
    dtest = xgb.DMatrix(test_set.drop(columns=[label_column]), label=test_set[label_column])

    return dtrain, dtest
columns_to_exclude = [
    'trade_date', 'ts_code', 'label', 'VWAP', 'signal',
    'MA5', 'MA7', 'deviation_MA5', 'deviation_MA7'
]
columns_to_convert = [
    'close', 'MA5', 'MA7', 'deviation_MA5',
    'deviation_MA7', 'MA30', 'deviation_MA30',
    'VWAP', 'signal'
]

label_column = 'close'
dataset = preprocess_data(dataset, columns_to_exclude, label_column)
train_set, test_set = split_data(dataset, label_column)
dtrain, dtest = prepare_dmatrix(train_set, test_set, label_column)

2、Sentosa_DSML社区版实现
  在处理数据时,将trade_date列从int类型转换为datetime 类型,可以连接两个格式算子完成,首先将int类型的日期转换为字符串,然后再将字符串转换为datetime类型。
在这里插入图片描述在这里插入图片描述
  对数据输出类型进行格式化后,连接类型算子,设置数据的测量类型和模型类型。这里修改模型类型,设置建模算子输入数据需要的标签列和特征列等属性。
在这里插入图片描述
  然后,连接样本分区算子,利用时间序列对数据进行分区,训练集和测试集比例为8:2。在这里插入图片描述

(四) 模型训练和评估

1、python代码实现

params = {
    'objective': 'reg:squarederror',
    'eval_metric': 'rmse',
    'learning_rate': 1,
    'max_depth': 6,
    'min_child_weight': 1,
    'subsample': 1,
    'colsample_bytree': 0.8,
    'lambda': 1,
    'alpha': 0
}
model = xgb.train(params, dtrain, num_boost_round=100, evals=[(dtest, 'test')])
y_train_pred = model.predict(dtrain)
y_test_pred = model.predict(dtest)
def calculate_metrics(y_true, y_pred):
    r2 = r2_score(y_true, y_pred)
    mae = mean_absolute_error(y_true, y_pred)
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100
    smape = np.mean(2 * np.abs(y_true - y_pred) / (np.abs(y_true) + np.abs(y_pred))) * 100
    mse = mean_squared_error(y_true, y_pred)
    return {
        'R2': r2,
        'MAE': mae,
        'RMSE': rmse,
        'MAPE': mape,
        'SMAPE': smape,
        'MSE': mse
    }
train_metrics = calculate_metrics(train_set[label_column], y_train_pred)
test_metrics = calculate_metrics(test_set[label_column], y_test_pred)
print("训练集评估结果:")
print(train_metrics)
print("测试集评估结果:")
print(test_metrics)

2、Sentosa_DSML社区版实现

  首先,选择XGBoost回归算子,并设置了相关参数用于模型训练,使用均方根误差(RMSE)作为评估模型表现的指标。构建了一个XGBoost预测模型,并将其应用于股票收盘价预测。也可以连接其他回归模型进行训练,将XGBoost模型的预测结果与其他模型的预测结果进行比较,并通过模型评价指标(如R²、MAE、RMSE等)对各个模型的表现进行验证和评估。
在这里插入图片描述
  执行后可以得到训练完成的XGBoost回归模型,右键可进行查看模型信息和预览结果等操作。
在这里插入图片描述
  连接评估算子对XGBoost模型进行评估。股票预测模型的预测性能评价指标采用R²、MAE、RMSE、MAPE、SMAPE和MSE,分别用于评估模型的拟合优度、预测误差的平均绝对值、均方根误差、绝对百分比误差、对称百分比误差和均方误差,用于衡量预测的准确性和稳定性。
在这里插入图片描述
  得到训练集和测试集的评估结果如下所示:
在这里插入图片描述在这里插入图片描述
  该XGBoost股票预测模型在训练集上表现优异,误差较小,表明模型能够很好地拟合训练数据。在测试集上的评估结果也较为理想,MAE为0.054,RMSE为0.093,MAPE和SMAPE分别为1.8%和1.7%,说明模型在测试集上的预测误差较小,具有良好的泛化能力,能够较为准确地预测股票收盘价,该模型在平衡训练集拟合和测试集泛化上表现稳定。

(五) 模型可视化

1、python代码实现

rcParams['font.family'] = 'sans-serif'
rcParams['font.sans-serif'] = ['SimHei']

train_residuals = train_set[label_column] - y_train_pred

plt.figure(figsize=(10, 6))
xgb.plot_importance(model, importance_type='weight', title='特征重要性图', xlabel='重要性', ylabel='特征')
plt.show()

plt.figure(figsize=(10, 6))
sns.histplot(train_residuals, bins=30, kde=True, color='blue')
plt.title('残差分布', fontsize=16)
plt.xlabel('残差', fontsize=14)
plt.ylabel('频率', fontsize=14)
plt.axvline(x=0, color='red', linestyle='--')
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.show()

`if '预测值' in test_set.columns:
    test_data = pd.DataFrame(test_set.drop(columns=[label_column, '预测值']))
else:
    test_data = pd.DataFrame(test_set.drop(columns=[label_column]))

test_data['实际值'] = test_set[label_column].values
test_data['预测值'] = y_test_pred
test_data_subset = test_data.head(400)

original_values = test_data_subset['实际值'].values
predicted_values = test_data_subset['预测值'].values
x_axis = range(1, 401)

plt.figure(figsize=(12, 6))
plt.plot(x_axis, original_values, label='实际值', color='orange')
plt.plot(x_axis, predicted_values, label='预测值', color='green')
plt.title('实际值与预测值比较', fontsize=16)
plt.xlabel('样本编号', fontsize=14)
plt.ylabel('收盘价', fontsize=14)
plt.legend()
plt.grid()
plt.show()`

在这里插入图片描述
在这里插入图片描述

2、Sentosa_DSML社区版实现

  右键模型信息可以查看特征重要性图、残差直方图等信息。
在这里插入图片描述
在这里插入图片描述
  连接时序图算子,用于将XGBoost模型预测的股票收盘价与实际收盘价进行可视化对比,将每个序列单独显示,生成时序对比曲线图,通过这种方式可以直观地看到模型预测与实际数据的差异,从而评估模型的性能和可靠性。这在数据预测中非常重要,因为它有助于识别模型是否能够准确捕捉市场趋势。
在这里插入图片描述
  得到时序图算子的执行结果如下所示:
在这里插入图片描述
  这张图包含两条时间序列曲线,分别展示了模型预测值(Predicted_close)和实际值(close)在一段时间内的走势对比,显示的是模型预测的股票收盘价随时间变化的趋势。两条曲线的整体趋势相似,尤其是在大的波动区域(如2008年左右的高峰期和之后的下降期),表明模型的预测效果与实际值接近。这张图直观地展示了模型预测值与实际值的时间序列对比,帮助评估模型的表现是否符合实际市场走势。

三、总结

  相比传统代码方式,利用Sentosa_DSML社区版完成机器学习算法的流程更加高效和自动化,传统方式需要手动编写大量代码来处理数据清洗、特征工程、模型训练与评估,而在Sentosa_DSML社区版中,这些步骤可以通过可视化界面、预构建模块和自动化流程来简化,有效的降低了技术门槛,非专业开发者也能通过拖拽和配置的方式开发应用,减少了对专业开发人员的依赖。
  Sentosa_DSML社区版提供了易于配置的算子流,减少了编写和调试代码的时间,并提升了模型开发和部署的效率,由于应用的结构更清晰,维护和更新变得更加容易,且平台通常会提供版本控制和更新功能,使得应用的持续改进更为便捷。

  为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用

https://sentosa.znv.com/

标签:plt,机器,column,dataset,test,Sentosa,DSML,close,label
From: https://www.cnblogs.com/KennethYuen/p/18466900

相关文章

  • 【机器学习(十二)】机器学习回归案例之二手汽车价格预测—XGBoost回归算法—Sentosa_D
    @目录一、算法和背景介绍二、Python代码和Sentosa_DSML社区版算法实现对比(一)数据读入与统计分析(二)数据处理(三)特征选择与相关性分析(四)样本分区与模型训练(五)模型评估和模型可视化三、总结一、算法和背景介绍  关于XGBoost的算法原理,已经进行了介绍与总结,相关内容......
  • 从零开始学机器学习——初探分类器
    首先给大家介绍一个很好用的学习地址:https://cloudstudio.net/columns在上一节中,我们已经完成了对所有经过均衡和清洗的菜品数据的准备工作。接下来,我们将考虑使用多种算法,也就是不同的分类器,来构建模型。我们将利用这个数据集和各种分类器,基于一组特定的配料,预测这些菜品属于哪......
  • 信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
    在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)作为一个基础概念,在量化概率分布差异方面发挥着关键作用。它常用于衡量当一个概率分布用于近似另一个概率分布时的信息损失。本文将深入探讨KL散度及其他相关的重要散度概念。KL散度KL散度,也称为相对熵,是衡量两个概......
  • 机器学习-决策树与随机森林-demo
    ......
  • 计算机视觉与机器学习 | 目标检测 - 主流算法介绍 - 从RCNN到DETR(建议收藏 !)
    本文来源公众号“计算机视觉与机器学习”,仅用于学术分享,侵权删,干货满满。原文链接:目标检测-主流算法介绍-从RCNN到DETR1前言目标检测是计算机视觉的一个非常重要的核心方向,它的主要任务是目标定位和目标分类。让我们跟随文章的介绍一起来回顾一下这些年目标检测的发展......
  • Python编程、机器学习与深度学习技术——建议收藏!附代码!
    原文链接:Python编程、机器学习与深度学习技术——建议收藏!附代码!https://mp.weixin.qq.com/s?__biz=MzUzNTczMDMxMg==&mid=2247622086&idx=4&sn=a2e310ea4b6e8a40de2fc683215e839b&chksm=fa825c21cdf5d537c8ef826df48d5e4791c48eda7bc53733a14dfaa67613dc76842db5da7104&token=......
  • 机器学习和神经网络的研究与传统物理学的关系
    将2024年诺贝尔物理学奖授予机器学习与神经网络领域的研究者,这一决定无疑具有里程碑式的意义,它不仅标志着物理学界对交叉学科研究的认可,也体现了科学技术发展趋势的深刻变革。以下是我对这一评奖结果的几点看法:科学边界的拓展:传统上,诺贝尔物理学奖聚焦于对自然界基本规律的理......
  • 人工智能的核心技术之机器学习
    大家好,我是Shelly,一个专注于输出AI工具和科技前沿内容的AI应用教练,体验过300+款以上的AI应用工具。关注科技及大模型领域对社会的影响10年+。关注我一起驾驭AI工具,拥抱AI时代的到来。人工智能(AI)核心技术概述:人工智能(AI)是一个快速发展的领域,其核心技术不断演进和扩展。以下是......
  • 机器学习领域如何判定算法是否收敛(算法是否稳定)
    最近在看ML的资料的时候看到有关算法收敛的讨论,然后有些资料并没有说明如何判定算法是否收敛,甚至有些资料中会将算法收敛和算法稳定性放在同等位置上来进行讨论,为此本文就这个问题进行一些讨论。几年前参加实验室大师兄小利师兄的博士论文答辩的时候有答辩评委提出了这么一个问......
  • 展望机器学习和神经网络的未来
    近日,2024年诺贝尔物理学奖颁发给了机器学习与神经网络领域的研究者,这是历史上首次出现这样的情况。这项奖项原本只授予对自然现象和物质的物理学研究作出重大贡献的科学家,如今却将全球范围内对机器学习和神经网络的研究和开发作为了一种能够深刻影响我们生活和未来的突出成果。......