首页 > 其他分享 >新时代【机器学习】与【Pycharm】：【随机数据生成】与智能【股票市场分析】

新时代【机器学习】与【Pycharm】：【随机数据生成】与智能【股票市场分析】

时间：2024-07-09 17:56:47浏览次数：20

标签：plt 数据随机股票市场 prices Pycharm 收盘价 data stock

目录

第一步：准备工作

1.1 安装必要的库

小李的理解：

小李的理解：

第二步：生成和准备数据

2.1 生成随机股票数据

小李的理解：

2.2 数据探索与可视化

小李的理解：

2.3 数据处理

小李的理解：

2.4 选择特征和标签

小李的理解：

第三步：拆分数据集

小李的理解：

第四步：训练决策树模型

小李的理解：

第五步：模型预测与评估

小李的理解：

专栏：机器学习笔记

总篇：学习路线

第一卷：线性回归模型

第二卷：逻辑回归模型

第一步：准备工作

1.1 安装必要的库

小李的理解：

在开始之前，需要安装一些工具，类似于做饭前要准备好各种食材。这里，需要安装pandas、scikit-learn和matplotlib，它们分别用于数据处理、机器学习和数据可视化。

在Pycharm中打开终端，并运行以下命令：

pip install pandas scikit-learn matplotlib

这些库的作用如下：

pandas：用于数据处理和分析，就像厨房里的切菜板和刀。
scikit-learn：用于机器学习模型的构建和评估，相当于厨房里的锅和炉灶。
matplotlib：用于数据可视化，类似于摆盘和装饰菜肴。

1.2 导入库

小李的理解：

在新的Python文件中，导入这些库。就像准备好工具后，把它们放在桌子上随时可以使用。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

第二步：生成和准备数据

2.1 生成随机股票数据

小李的理解：

现在要生成一些模拟的股票数据。想象在创建一个虚拟的股票市场，这些数据包括日期、开盘价、最高价、最低价、收盘价和成交量。就像在做一顿虚拟的大餐，需要各种食材和调料。

# 设置随机种子以确保结果可重复
np.random.seed(42)

# 生成99个交易日期（工作日）
dates = pd.date_range(start='2023-01-01', periods=99, freq='B')

# 随机生成股票价格数据
open_prices = np.random.uniform(low=100, high=200, size=len(dates))
high_prices = open_prices * np.random.uniform(low=1, high=1.1, size=len(dates))
low_prices = open_prices * np.random.uniform(low=0.9, high=1, size=len(dates))
close_prices = np.random.uniform(low=100, high=200, size=len(dates))
volumes = np.random.randint(low=1000, high=10000, size=len(dates))

# 创建数据框
stock_data = pd.DataFrame({
    '日期': dates,
    '开盘价': open_prices,
    '最高价': high_prices,
    '最低价': low_prices,
    '收盘价': close_prices,
    '成交量': volumes
})

# 将数据保存到CSV文件中
stock_data.to_csv('data.csv', index=False, encoding='utf-8-sig')
print("数据已保存到data.csv文件中")

2.2 数据探索与可视化

小李的理解：

为了更好地理解我们的数据，可以绘制收盘价的时间序列图。这就像是把做好的菜摆盘后拍张照片，看看颜色和外观怎么样。

# 绘制收盘价的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(stock_data['收盘价'], label='收盘价')
plt.title('模拟股票收盘价历史')
plt.xlabel('日期')
plt.ylabel('收盘价 (美元)')
plt.legend()
plt.show()

这段代码将显示模拟股票收盘价随时间变化的图表。

2.3 数据处理

小李的理解：

为了进行预测，需要创建一些特征和标签。用今天的数据来预测明天的情况。具体来说，会看看今天的收盘价，并判断明天的收盘价是否会上涨。就像是根据今天的天气预测明天是否会下雨。

# 创建新的特征和标签
stock_data['次日收盘价'] = stock_data['收盘价'].shift(-1)
stock_data['价格上涨'] = (stock_data['次日收盘价'] > stock_data['收盘价']).astype(int)
stock_data.dropna(inplace=True)
print(stock_data.head())

在这段代码中：

创建了一个新的列次日收盘价，表示下一天的收盘价。
创建了标签列价格上涨，如果第二天的收盘价高于当天，则标签为1，否则为0。
删除了包含空值的行。

2.4 选择特征和标签

小李的理解：

选择一些关键数据作为特征，用它们来预测明天的情况。这些特征包括收盘价、开盘价、最高价、最低价和成交量。就像是选择了一些重要的天气指标（如温度、湿度、风速等）来预测明天的天气。

# 选择特征和标签
features = stock_data[['收盘价', '开盘价', '最高价', '最低价', '成交量']]
labels = stock_data['价格上涨']

在这段代码中，选择了特征列和标签列，用于后续的模型训练和评估。

第三步：拆分数据集

小李的理解：

为了评估模型，需要把数据分成两部分：一部分用来训练模型，另一部分用来测试模型的准确性。就像是用一些数据来训练一个预测模型，然后用其他数据来验证它的预测能力。

from sklearn.model_selection import train_test_split

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

在这段代码中，将数据集的80%用作训练集，20%用作测试集。还设置了random_state参数，以确保每次运行代码时拆分方式相同。

第四步：训练决策树模型

小李的理解：

可以用训练数据来训练我们的模型了。决策树是一种机器学习算法，就像是一个聪明的机器人，它可以学习数据中的模式，并根据这些模式做出预测。

from sklearn.tree import DecisionTreeClassifier

# 训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

在这段代码中，首先创建了一个DecisionTreeClassifier对象，然后使用训练数据X_train和y_train来训练模型。

第五步：模型预测与评估

小李的理解：

训练完成后，可以用测试数据来评估模型的表现。让模型对测试数据做出预测，并计算预测的准确性。就像是测试一个天气预报模型，看看它预测的准确性有多高。

from sklearn.metrics import accuracy_score

# 模型预测与评估
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

在这段代码中，我们使用clf.predict方法来预测测试数据的标签，然后使用accuracy_score函数来计算模型的准确性。

结果

日期开盘价最高价最低价收盘价成交量 0 2023-01-02 137.454012 138.937023 135.901969 121.582103 4440 1 2023-01-03 195.071431 195.684524 190.777431 162.289048 4766 2 2023-01-04 173.199394 184.221984 166.999404 108.534746 6644 3 2023-01-05 159.865848 164.891327 145.224374 105.168172 3914 4 2023-01-06 115.601864 121.481036 105.910136 153.135463 5968

日期开盘价最高价 ... 成交量次日收盘价价格上涨 0 2023-01-02 137.454012 138.937023 ... 4440 162.289048 1 1 2023-01-03 195.071431 195.684524 ... 4766 108.534746 0 2 2023-01-04 173.199394 184.221984 ... 6644 105.168172 0 3 2023-01-05 159.865848 164.891327 ... 3914 153.135463 1 4 2023-01-06 115.601864 121.481036 ... 5968 154.063512 1

[5 rows x 8 columns] 准确率: 0.50

完整代码

为了方便你查看和运行，以下是完整的代码：

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

# 设置随机种子以确保结果可重复
np.random.seed(42)

# 生成99个交易日期（工作日）
dates = pd.date_range(start='2023-01-01', periods=99, freq='B')

# 随机生成股票价格数据
open_prices = np.random.uniform(low=100, high=200, size=len(dates))
high_prices = open_prices * np.random.uniform(low=1, high=1.1, size=len(dates))
low_prices = open_prices * np.random.uniform(low=0.9, high=1, size=len(dates))
close_prices = np.random.uniform(low=100, high=200, size=len(dates))
volumes = np.random.randint(low=1000, high=10000, size=len(dates))

# 创建数据框
stock_data = pd.DataFrame({
    '日期': dates,
    '开盘价': open_prices,
    '最高价': high_prices,
    '最低价': low_prices,
    '收盘价': close_prices,
    '成交量': volumes
})

# 将数据保存到CSV文件中
stock_data.to_csv('data.csv', index=False, encoding='utf-8-sig')
print("数据已保存到data.csv文件中")

# 读取CSV文件中的数据
stock_data = pd.read_csv('data.csv')
print(stock_data.head())

# 设置字体属性，确保能显示中文
font = FontProperties(fname='C:/Windows/Fonts/simhei.ttf')  # 这里使用黑体，可以根据需要更改

# 绘制收盘价的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(stock_data['日期'], stock_data['收盘价'], label='收盘价')
plt.title('模拟股票收盘价历史', fontproperties=font)
plt.xlabel('日期', fontproperties=font)
plt.ylabel('收盘价 (美元)', fontproperties=font)
plt.legend(prop=font)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 创建新的特征和标签
stock_data['次日收盘价'] = stock_data['收盘价'].shift(-1)
stock_data['价格上涨'] = (stock_data['次日收盘价'] > stock_data['收盘价']).astype(int)
stock_data.dropna(inplace=True)
print(stock_data.head())

# 选择特征和标签
features = stock_data[['收盘价', '开盘价', '最高价', '最低价', '成交量']]
labels = stock_data['价格上涨']

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

# 训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

# 模型预测与评估
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

总结

生成随机股票数据，保存为 CSV 文件，并使用决策树进行预测和评估。

安装必要的库：
使用 pip install pandas numpy scikit-learn matplotlib 安装库。
生成并保存随机数据：
生成 99 个交易日（工作日）的随机股票数据，包括日期、开盘价、最高价、最低价、收盘价和成交量。使用 pandas 将数据保存到 data.csv 文件中。
读取并准备数据：
- 从 CSV 文件中读取数据。
- 创建新的特征（次日收盘价）和标签（价格上涨）。
数据可视化：
- 使用 matplotlib 绘制收盘价的时间序列图。
- 设置字体属性以确保图表中能正确显示中文。
拆分数据集：
将数据集拆分为训练集和测试集。
训练决策树模型：
使用 DecisionTreeClassifier 训练模型。
模型预测与评估：
使用测试集对模型进行评估，计算模型的准确性。

标签：plt,数据,随机,股票市场,prices,Pycharm,收盘价,data,stock
From： https://blog.csdn.net/2303_77720864/article/details/140267188

相关文章

无痛从pycharm转到vscode学习 vscode小白新手教程/创建文件/
前提：之前用的是pycharmpython3.8 1、安装VScode链接：夸克网盘链接：https://pan.quark.cn/s/da4d566aa64b提取码：T7Hz1.1安装python扩展在右边的插件里面搜索python2.1在桌面创建一个文件夹通过vscode--文件导入2.2创建py文件直接将文件名后缀改......
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测|附代码数据
原文链接：http://tecdat.cn/?p=17950 最近我们被客户要求撰写关于的研究报告，包括一些图形和统计输出。在本文中，我们使用了逻辑回归、决策树和随机森林模型来对信用数据集进行分类预测并比较了它们的性能数据集是 credit=read.csv("gecredit.csv", header = ......
【scrapy】随机更换User-Agent中间件
importrandomfromscrapyimportsignalsimportfake_useragent#加载settings中的配置fromscrapy.utils.projectimportget_project_settingsclassRandomUserAgentMiddleware:def__init__(self):allUA=fake_useragent.UserAgent().data_brow......
Pycharm 专业版免费使用方法
本方法2021.2.2及以下版本很好用；本方法2021.2.2及以下版本很好用；本方法2021.2.2及以下版本很好用；重要的事情说三遍！！！1.安装PyCharmProfessional2021.2.2及以下版本 OtherVersions-PyCharm(jetbrains.com) 从官网或者上方的url里找到对应版本安装pycharm我们以2021......
python和pycharm安装
一、python和pycharm的作用Python是一种跨平台的计算机程序语言。Python是我们进行项目开发而使用的一门计算机语言，通俗来说就是编写代码，编写完代码之后，我们就需要运行，不然代码是死的,机器是无法识别的，这时我们需要运行Python代码的运行环境和工具。PyCharm带有一整套......
解决Pycharm配置R语言环境报错RWrapper terminated, exitcode: 127
问题解决Pycharm配置R语言环境报错RWrapperterminated,exitcode:127errorwhileloadingsharedlibraries:libR.so:site:stackoverflow.com解决方案1.打开GetEnvVars.R文件打开C:\Users\UserName\AppData\Roaming\JetBrains\PyCharm版本号\plugins\r-plugin\R\目录......
SQL脚本快速生成随机测试数据
OraclecreatetableTestTableasselectlower(sys_guid())ASguid,rownumasinc_id,trunc(dbms_random.value(0,100))asrandom_id,trunc(dbms_random.value()*power(10,3),8)asrandom_decimal1,trunc(dbms_random.val......
2.7 在Windows系统下载、安装、汉化、配置搭建PyCharm集成开发环境（IDE）——《跟老吕学P
2.7在Windows系统下载、安装、汉化、配置搭建PyCharm集成开发环境（IDE）——《跟老吕学Python》在Windows系统下载、安装、汉化、配置搭建PyCharm集成开发环境（IDE）一、PyCharm系统要求二、下载PyCharm1.访问PyCharm官网2.转入PyCharm主页3.选择版本4.转入版本下载页面......
pycharm创建临时文件scatch file
JetBrainsPyCharm是一种PythonIDE，其带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具。此外，该IDE提供了一些高级功能，以用于Django框架下的专业Web开发。有时您可能需要创建临时注释或在项目上下文之外起草一些代码。为此，您可以使用临时文件和临时缓冲区，而不是切......
数据分享|python分类预测职员离职:逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGB
全文链接：https://tecdat.cn/?p=34434原文出处：拓端数据部落公众号分析师：ShilinChen离职率是企业保留人才能力的体现。分析预测职员是否有离职趋向有利于企业的人才管理，提升组织职员的心理健康，从而更有利于企业未来的发展。解决方案任务/目标采用分类这一方法构建6种模型对职......

赞助商

阅读排行