首页 > 其他分享 >医学数据分析实训 项目九 糖尿病风险预测

医学数据分析实训 项目九 糖尿病风险预测

时间:2024-09-18 15:22:20浏览次数:9  
标签:数据分析 plt test 糖尿病 train 实训 datatrain print 数据

文章目录

综合实践二 糖尿病遗传风险预测

本实践项目的数据集包含“train.csv”和“test.csv”两部分,部分特征名已经做了脱敏处理。训练集中包含年龄、性别、各项体检指标及目标血糖值。测试集相对于训练集缺少了对应的血糖值。训练集中包含 42个数据特征,其中 37 个为医学指标特征,数据集中的第一行为特征名称,其余每行代表一个个体。部分特征内容在部分人群中有缺失。

请将以上体检数据集进行预处理,并在处理后的数据集的基础上,结合交叉验证,运用一种基于决策树算法的梯度提升框架的 LightGBM 算法对训练集进行训练,建立预测模型,实现血糖预测功能。

一、分析目标

结合体检数据集,实现以下分析目标:

  1. 以血糖值为目标建立模型,实现血糖预测功能;
  2. 预测糖尿病遗传风险并对预测结果进行分析;

二、实现步骤

  1. 对数据集“train.csv”和“test.csv”中的数据进行数据探索、数据清洗、特征工程等操作;
  2. 结合交叉验证和 LightGBM 算法构建模型;
  3. 对模型结果进行分析,并进行模型评价;

三、数据准备

  1. 对数据集进行描述性统计分析;
  2. 对数据集“train.csv”和“test.csv”中的缺失值、重复值、异常值,以及格式与内容不规范的数据进行数据清洗;
  3. 结合数据集“train.csv”中的数据,分别绘制图形分析性别、年龄与血糖值的关系;
  4. 计算相关系数,得到数据集“train.csv”中每个指标与血糖值的相关系数,从而分析各特征与血糖值的相关性;

四、特征工程

  1. 结合统计分析结果和特征相关性,筛选数据集“train.csv”和“test.csv”中的特征;
  2. 将性别特征值转化为数值型数据;
  3. 根据年龄和血糖值之间的关系,筛选出高血糖分布的年龄段数据;

五、模型构建

  1. 利用 k 折交叉验证 model_selection.KFold() 将原始数据集 “train.csv” 划分为训练集和测试集两部分;
  2. 使用每次划分的训练集对 LightGBM 分类器进行训练,使用测试集评估 LightGBM 模型;
  3. 使用 LightGBM 模型预测测试集中的血糖值;

六、性能度量

  1. 使用多种评价指标对模型进行评价;
  2. 根据评价效果对模型进行优化;
  3. 绘制折线图分析血糖的真实值与预测值;
  4. 筛选出预测数据中血糖值在正常范围内(3.9~6.1 毫摩尔 / 升)的数据;
  5. 获得高血糖风险个体信息的数据;

七、提交要求

  1. 提交实现本实践任务的所有代码(可执行,非 .doc、.txt 等文本格式);
  2. 提交综合实践任务书(word格式),包括小组成员分工、分析目的、数据预处理、算法介绍、结果分析等内容;
  3. 提交预处理之后的数据集,以及所有可视化图表(命名规范,.jpg 格式);

综合实践任务二 糖尿病遗传风险预测代码

(一)数据准备

# 导入本案例所需的 Python 包;
import matplotlib.pyplot as plt

# 设置显示中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
# 设置正常显示符号
plt.rcParams['axes.unicode_minus'] = False
import seaborn as sns
import pandas as pd

# 读取数据集;
datatest = pd.read_csv('data/test.csv', encoding='gbk')
datatrain = pd.read_csv('data/train.csv', encoding='gbk')

print(datatest.head())
print(datatrain.head())

# 1. 对数据集进行描述性统计分析;

# 对test数据集进行描述性统计分析
print("test数据集的描述性统计分析:")
print(datatest.describe())
print(datatest.info())
print(datatest.shape)

# 对train数据集进行描述性统计分析
print("train数据集的描述性统计分析:")
print(datatrain.describe())
print(datatrain.info())
print(datatrain.shape)

发现要对性别,为数值型数据,日期格式化

#2. 对数据集“train.csv”和“test.csv”中的缺失值、重复值、异常值,以及格式与内容不规范的数据进行数据清洗;
import numpy as np
from scipy import stats

# 检查缺失值
missing_train = datatrain.isnull().sum()
missing_test = datatest.isnull().sum()

print("训练集中缺失值:")
print(missing_train[missing_train > 0])
print("\n测试集中缺失值:")
print(missing_test[missing_test > 0])

# 处理缺失值
datatrain.dropna(inplace=True)  # 删除缺失值较多的行
datatest.dropna(subset=['性别'], inplace=True)  # 确保性别列不为空

# 内容不规范的数据进行数据清
# 转换性别特征为数值型
datatrain['性别'] = datatrain['性别'].map({'男': 1, '女': 0})
datatest['性别'] = datatest['性别'].map({'男': 1, '女': 0})

# 清洗日期列:将其转换为 datetime 格式
datatrain['体检日期'] = pd.to_datetime(datatrain['体检日期'], errors='coerce', dayfirst=True)
datatest['体检日期'] = pd.to_datetime(datatest['体检日期'], errors='coerce', dayfirst=True)

# 将日期转换为时间戳(单位为秒)
datatrain['体检日期'] = (datatrain['体检日期'].astype(np.int64) // 10 ** 9)  # 转换为秒
datatest['体检日期'] = (datatest['体检日期'].astype(np.int64) // 10 ** 9)  # 转换为秒

# 处理异常值
numeric_cols = datatrain.select_dtypes(include=[np.number]).columns
z_scores_train = stats.zscore(datatrain[numeric_cols])
abs_z_scores_train = np.abs(z_scores_train)
datatrain = datatrain[(abs_z_scores_train < 3).all(axis=1)]

# 检查特征中是否有NaN
print("数据集中NaN数量:")
print(datatrain[['年龄', '血糖']].isnull().sum())

# 打印前几行数据以检查
print("训练集前几行数据:")
print(datatrain[['年龄', '血糖']].head())

# 保存数据
datatrain.to_csv('data/train_clean.csv', index=False)
datatest.to_csv('data/test_clean.csv', index=False)
训练集中缺失值:
*r-谷氨酰基转换酶     1406
*丙氨酸氨基转换酶      1406
*天门冬氨酸氨基转换酶    1406
*总蛋白           1406
*球蛋白           1406
*碱性磷酸酶         1406
中性粒细胞%           21
乙肝e抗体          5110
乙肝e抗原          5110
乙肝核心抗体         5110
乙肝表面抗体         5110
乙肝表面抗原         5110
低密度脂蛋白胆固醇      1395
单核细胞%            21
嗜碱细胞%            21
嗜酸细胞%            21
尿素             1572
尿酸             1572
总胆固醇           1395
淋巴细胞%            21
甘油三酯           1395
白球比例           1406
白细胞计数            21
白蛋白            1406
红细胞体积分布宽度        21
红细胞压积            21
红细胞平均体积          21
红细胞平均血红蛋白浓度      21
红细胞平均血红蛋白量       21
红细胞计数            21
肌酐             1572
血小板体积分布宽度        29
血小板平均体积          29
血小板比积            29
血小板计数            21
血红蛋白             21
高密度脂蛋白胆固醇      1395
dtype: int64

测试集中缺失值:
*天门冬氨酸氨基转换酶    185
*丙氨酸氨基转换酶      185
*碱性磷酸酶         185
*r-谷氨酰基转换酶     185
*总蛋白           185
白蛋白            185
*球蛋白           185
白球比例           185
甘油三酯           176
总胆固醇           176
高密度脂蛋白胆固醇      176
低密度脂蛋白胆固醇      176
尿素             194
肌酐             194
尿酸             194
乙肝表面抗原         831
乙肝表面抗体         831
乙肝e抗原          831
乙肝e抗体          831
乙肝核心抗体         831
白细胞计数            5
红细胞计数            5
血红蛋白             5
红细胞压积            5
红细胞平均体积          5
红细胞平均血红蛋白量       5
红细胞平均血红蛋白浓度      5
红细胞体积分布宽度        5
血小板计数            5
血小板平均体积          6
血小板体积分布宽度        6
血小板比积            6
中性粒细胞%           5
淋巴细胞%            5
单核细胞%            5
嗜酸细胞%            5
嗜碱细胞%            5
dtype: int64
数据集中NaN数量:
年龄    0
血糖    0
dtype: int64
#3. 结合数据集“train.csv”中的数据,分别绘制图形分析性别、年龄与血糖的关系;
import os

# 绘制性别与血糖值的关系
plt.figure(figsize=(8, 6))
sns.boxplot(x='性别', y='血糖', data=datatrain)
plt.title('性别与血糖的关系')
plt.xlabel('性别 (0: 女, 1: 男)')
plt.ylabel('血糖')
plt.xticks([0, 1], ['女', '男'])
# 保存图片
if not os.path.exists('output'):
    os.makedirs('output')
plt.savefig('output/性别与血糖的关系.png')
plt.show()

# 绘制年龄与血糖值的关系
plt.figure(figsize=(8, 6))
sns.scatterplot(x='年龄', y='血糖', data=datatrain)
plt.title('年龄与血糖的关系')
plt.xlabel('年龄')
plt.ylabel('血糖')
plt.savefig('output/年龄与血糖的关系.png')
plt.show()


在这里插入图片描述
在这里插入图片描述

# 4. 计算相关系数,得到数据集“train.csv”中每个指标与血糖值的相关系数,从而分析各特征与血糖值的相关性;
# 计算相关系数
correlation_matrix = datatrain.corr()

# 获取血糖值与其他特征的相关系数
glucose_correlation = correlation_matrix['血糖'].sort_values(ascending=False)

# 打印相关系数
print("各特征与血糖的相关系数:")
print(glucose_correlation)

# 可视化相关系数热图(这个可以不要,做图后,发现没有必要使用热力图)
plt.figure(figsize=(12, 10))  # 调整图形大小
sns.heatmap(correlation_matrix, annot=False, fmt='.2f', cmap='coolwarm',
            linewidths=0.5, linecolor='gray', cbar_kws={'shrink': 0.8})

# 设置坐标轴标签的旋转角度
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.yticks(fontsize=10)

# 设置标题
plt.title('相关系数热图', fontsize=16)

plt.tight_layout()
plt.show()

在这里插入图片描述

(二)特征工程

#1. 结合统计分析结果和特征相关性,筛选数据集“train.csv”和“test.csv”中的特征;
# 获取与血糖相关的特征
correlation_with_glucose = correlation_matrix['血糖'].sort_values(ascending=False)
print("与血糖的相关系数:")
print(correlation_with_glucose)
with open('output/与血糖的相关系数.txt', 'a') as f:
    f.write("与血糖的相关系数:\n")
    f.write(str(correlation_with_glucose) + "\n")

# 筛选出相关系数绝对值大于某个阈值的特征
threshold = 0.1  # 可以调整
selected_features = correlation_with_glucose[abs(correlation_with_glucose) > threshold].index.tolist()

# 确保血糖是最后一个特征
if '血糖' in selected_features:
    selected_features.remove('血糖')
selected_features.append('血糖')
print(f"选择的特征: {selected_features}")

# 筛选训练集和测试集的特征
X_train = datatrain[selected_features]
X_test = datatest[selected_features[:-1]]  # 不包括目标变量

# 打印选择的特征集信息
print("筛选后的训练集特征:")
print(X_train.head())
print("\n筛选后的测试集特征:")
print(X_test.head())

#2. 将性别特征值转化为数值型数据;
# 已经转化为数值型数据,只需要查看转换后的性别数据
print("\n训练集中性别特征转化后的数据:")
print(datatrain[selected_features][['性别']].head())

print("\n测试集中性别特征转化后的数据:")
print(datatrain[selected_features][['性别']].head())
#3. 根据年龄和血糖之间的关系,筛选出高血糖分布的年龄段数据;
# 定义高血糖标准
high_glucose_threshold = 6.1  # 血糖值大于 6.1 mmol/L 视为高血糖

# 筛选高血糖分布的年龄段数据
high_glucose_data = datatrain[datatrain['血糖'] > high_glucose_threshold]

# 打印高血糖数据及其年龄
print("高血糖记录的年龄段数据:")
print(high_glucose_data[['年龄', '血糖']])

# 分析年龄分布,可以绘制直方图
# 绘制高血糖年龄分布图
plt.figure(figsize=(10, 6))

# 折线图和直方图分开设置颜色和透明度
sns.histplot(high_glucose_data['年龄'], bins=10, kde=True, color='skyblue', alpha=0.5)

plt.title('高血糖分布的年龄段', fontsize=14)
plt.xlabel('年龄', fontsize=12)
plt.ylabel('频率', fontsize=12)

# 显示网格
plt.grid(True, linestyle='--', alpha=0.6)
plt.savefig('output/高血糖分布的年龄段.png')

plt.show()


在这里插入图片描述

(三)模型构建

  1. 利用 k 折交叉验证 model_selection.KFold()将原始数据集“train.csv”划分为训练集和测试集两部分;
  2. 使用每次划分的训练集对 LightGBM 分类器进行训练,使用测试集评估LightGBM 模型;
  3. 使用 LightGBM 模型预测测试集中的血糖值;
from sklearn.metrics import mean_squared_error
import lightgbm as lgb
from sklearn.model_selection import KFold

# 3. 定义特征和目标变量
X = datatrain.drop(columns=['血糖'])  # 特征集,包括除了血糖的所有列
y = datatrain['血糖']  # 目标变量 (连续值)

# 初始化 LightGBM 回归模型
model = lgb.LGBMRegressor()

# K 折交叉验证
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# 记录每次的均方误差
mse_list = []
# 存储特征的重要性
feature_importances = []

# 进行 KFold 交叉验证
for train_index, test_index in kf.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

    # 训练模型
    model.fit(X_train, y_train)

    # 预测测试集
    y_pred = model.predict(X_test)

    # 计算均方误差
    mse = mean_squared_error(y_test, y_pred)
    mse_list.append(mse)

    # 存储特征重要性
    feature_importances.append(model.feature_importances_)

# 输出每折的均方误差
print(f"每折的均方误差: {mse_list}")
print(f"平均均方误差: {np.mean(mse_list)}")

输出日志表明,LightGBM模型在训练期间会自动在行级和列级多线程之间进行选择。这个选择是基于效率的,使用LightGBM测试哪个线程方法更快。日志还表明模型训练了5次(k折交叉验证中的每一折训练一次),并且计算了每一折的均方误差(MSE)。打印每个折页的MSE值,然后是所有折页的平均MSE值。MSE结果总结:
每折的均方误差: [0.6055686655682433, 0.9249987213836735, 0.7034785699030783, 0.7313929411084273, 0.7101798897562409]
平均均方误差: 0.7351237575439327

# 使用整个训练集再训练一次模型
final_model = lgb.LGBMRegressor()
final_model.fit(X, y)

# 对测试集预测血糖值
X_test = datatest.drop(columns=['血糖'], errors='ignore')  # 确保不包含目标列
y_test_pred = final_model.predict(X_test)

# 打印预测的血糖值
print("测试集预测的血糖值:")
print(y_test_pred)
# 保存测试集预测的血糖值:
with open('output/测试集预测的血糖值.txt', 'a') as f:
    f.write("测试集预测的血糖值:\n")
    f.write(str(y_test_pred) + "\n")

(四)性能度量

1.使用多种评价指标对模型进行评价;
2.根据评价效果对模型进行优化;
3.绘制折线图分析血糖的真实值与预测值;
4.筛选出预测数据中血糖值在正常范围内(3.9~6.1 毫摩尔/升)的数据;
5.获得高血糖风险个体信息的数据;

# 1. 使用多种评价指标对模型进行评价

# 特征重要性分析
avg_importances = np.mean(feature_importances, axis=0)
feature_importance_df = pd.DataFrame({'特征': X.columns, '重要性': avg_importances})
print('特征重要性:\n', feature_importance_df)
# 排序并绘图
feature_importance_df = feature_importance_df.sort_values(by='重要性', ascending=False)

with open('output/特征重要性.txt', 'a', encoding='utf-8') as f:
    f.write("特征重要性:\n")
    f.write(str(feature_importance_df) + "\n")

plt.figure(figsize=(10, 6))
plt.barh(feature_importance_df['特征'], feature_importance_df['重要性'], color='skyblue')
plt.xlabel('重要性')
plt.title('特征重要性')
plt.savefig('output/特征重要性.png')
plt.show()
# 输出每折的均方误差
print(f"每折的均方误差 (MSE): {mse_list}")
print(f"平均均方误差 (MSE): {np.mean(mse_list)}")


每折的均方误差 (MSE): [0.6055686655682433, 0.9249987213836735, 0.7034785699030783, 0.7313929411084273, 0.7101798897562409]
平均均方误差 (MSE): 0.7351237575439327

在这里插入图片描述

# 2. 根据评价效果对模型进行优化
# 可以调整 LightGBM 的参数,如增加 num_leaves、learning_rate 或选择不同的 objective。
# 重新初始化模型并进行调整
model = lgb.LGBMRegressor(num_leaves=50, learning_rate=0.05, n_estimators=200)

# 重新进行 KFold 交叉验证
mse_list = []

for train_index, test_index in kf.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

    # 训练新模型
    model.fit(X_train, y_train)

    # 预测
    y_pred = model.predict(X_test)

    # 计算均方误差
    mse_list.append(mean_squared_error(y_test, y_pred))

print("优化后的平均均方误差 (MSE):", np.mean(mse_list))

优化后的平均均方误差 (MSE): 0.7268255486451238

# 3. 绘制折线图分析血糖的真实值与预测值
plt.figure(figsize=(10, 6))
plt.plot(y_test.values, label='真实值', marker='o', linestyle='--')
plt.plot(y_pred, label='预测值', marker='x', linestyle='-')
plt.title('血糖的真实值与预测值的比较')
plt.xlabel('样本索引')
plt.ylabel('血糖值')
plt.legend()
plt.savefig('output/血糖的真实值与预测值的比较.png')

plt.show()

在这里插入图片描述

# 4.筛选出预测数据中血糖值在正常范围内(3.9~6.1 毫摩尔/升)的数据;
normal_range_indices = np.where((y_pred >= 3.9) & (y_pred <= 6.1))
normal_range_data = X_test.iloc[normal_range_indices]

print("正常范围内的预测数据:")
print(normal_range_data)
# 5.获得高血糖风险个体信息的数据;
high_risk_indices = np.where(y_pred > 6.1)
high_risk_data = X_test.iloc[high_risk_indices]

print("高血糖风险个体信息的数据:", high_risk_data)
print('高血糖风险个体人数', len(high_risk_data))

# 保存高危险人体数据
with open('output/高血糖风险个体信息的数据.txt', 'a') as f:
    f.write("高血糖风险个体信息的数据:\n")
    f.write(str(high_risk_data) + "\n")

在这里插入图片描述

标签:数据分析,plt,test,糖尿病,train,实训,datatrain,print,数据
From: https://blog.csdn.net/m0_73678713/article/details/142334375

相关文章