实战一:Breast Cancer Wisconsin (Diagnostic)

标签：confmat Wisconsin Cancer pred train Breast test import sklearn

 1 import pandas as pd#pandas是一个快速、强大、灵活和易于使用的开源数据分析和操作工具。
 2 from sklearn.preprocessing import LabelEncoder#该类使用 0 到 n_classs-1 之间的值对目标标签进行编码。该转换器应用于编码目标值y，而不是输入X
 3 # from sklearn.cross_validation import train_test_split
 4 # 新版本的sklearn中导入train_test_split用于数据分割是这样的
 5 from sklearn.model_selection import train_test_split#train_test_split(),分离器函数,用于将矩阵或数组划分成训练集和数据集
 6 from sklearn.preprocessing import StandardScaler#数据在预处理的时候，经常会涉及到数据标准化。将现有的数据通过某种关系，映射到某一空间内。
 7 from sklearn.pipeline import Pipeline#Pipeline可以将许多算法模型串联起来，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。
 8 #主要带来两点好处：
 9 #1.直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。
10 #2.可以结合grid search对参数进行选择。
11 from sklearn.svm import SVC#sklearn.svm.SVC()函数全称为C-支持向量分类器。
12 import numpy as np#数值计算函数
13 from sklearn.metrics import confusion_matrix#混淆矩阵
14 import matplotlib.pyplot as plt#绘图函数
15 from sklearn.metrics import precision_score, recall_score, f1_score## 准确率、召回率、F1计算函数
16 
17 # 导入数据
18 file = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data',
19                  header=None)
20 df=file
21 X = df.loc[:, 2:].values
22 y = df.loc[:, 1].values
23 le = LabelEncoder()
24 y = le.fit_transform(y)  # 类标整数化
25 
26 # 划分训练集合测试集
27 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)
28 # 建立pipeline
29 pipe_svc = Pipeline([('scl', StandardScaler()), ('clf', SVC(random_state=1))])
30 pipe_svc.fit(X_train, y_train)
31 y_pred = pipe_svc.predict(X_test)
32 # 混淆矩阵并可视化
33 confmat = confusion_matrix(y_true=y_test, y_pred=y_pred)  # 输出混淆矩阵
34 print(confmat)
35 fig, ax = plt.subplots(figsize=(2.5, 2.5))
36 ax.matshow(confmat, cmap=plt.cm.Blues, alpha=0.3)
37 for i in range(confmat.shape[0]):
38     for j in range(confmat.shape[1]):
39         ax.text(x=j, y=i, s=confmat[i, j], va='center', ha='center')
40 plt.xlabel('predicted label')
41 plt.ylabel('true label')
42 plt.show()
43 # 召回率、准确率、F1
44 print('precision:%.3f' % precision_score(y_true=y_test, y_pred=y_pred))
45 print('recall:%.3f' % recall_score(y_true=y_test, y_pred=y_pred))
46 print('F1:%.3f' % f1_score(y_true=y_test, y_pred=y_pred))

标签：confmat,Wisconsin,Cancer,pred,train,Breast,test,import,sklearn
From： https://www.cnblogs.com/xuanranxiajv/p/16746880.html

实战一:Breast Cancer Wisconsin (Diagnostic)

相关文章

赞助商

阅读排行