1 import pandas as pd#pandas是一个快速、强大、灵活和易于使用的开源数据分析和操作工具。 2 from sklearn.preprocessing import LabelEncoder#该类使用 0 到 n_classs-1 之间的值对目标标签进行编码。该转换器应用于编码目标值y,而不是输入X 3 # from sklearn.cross_validation import train_test_split 4 # 新版本的sklearn中导入train_test_split用于数据分割是这样的 5 from sklearn.model_selection import train_test_split#train_test_split(),分离器函数,用于将矩阵或数组划分成训练集和数据集 6 from sklearn.preprocessing import StandardScaler#数据在预处理的时候,经常会涉及到数据标准化。将现有的数据通过某种关系,映射到某一空间内。 7 from sklearn.pipeline import Pipeline#Pipeline可以将许多算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。 8 #主要带来两点好处: 9 #1.直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。 10 #2.可以结合grid search对参数进行选择。 11 from sklearn.svm import SVC#sklearn.svm.SVC()函数全称为C-支持向量分类器。 12 import numpy as np#数值计算函数 13 from sklearn.metrics import confusion_matrix#混淆矩阵 14 import matplotlib.pyplot as plt#绘图函数 15 from sklearn.metrics import precision_score, recall_score, f1_score## 准确率、召回率、F1计算函数 16 17 # 导入数据 18 file = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data', 19 header=None) 20 df=file 21 X = df.loc[:, 2:].values 22 y = df.loc[:, 1].values 23 le = LabelEncoder() 24 y = le.fit_transform(y) # 类标整数化 25 26 # 划分训练集合测试集 27 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1) 28 # 建立pipeline 29 pipe_svc = Pipeline([('scl', StandardScaler()), ('clf', SVC(random_state=1))]) 30 pipe_svc.fit(X_train, y_train) 31 y_pred = pipe_svc.predict(X_test) 32 # 混淆矩阵并可视化 33 confmat = confusion_matrix(y_true=y_test, y_pred=y_pred) # 输出混淆矩阵 34 print(confmat) 35 fig, ax = plt.subplots(figsize=(2.5, 2.5)) 36 ax.matshow(confmat, cmap=plt.cm.Blues, alpha=0.3) 37 for i in range(confmat.shape[0]): 38 for j in range(confmat.shape[1]): 39 ax.text(x=j, y=i, s=confmat[i, j], va='center', ha='center') 40 plt.xlabel('predicted label') 41 plt.ylabel('true label') 42 plt.show() 43 # 召回率、准确率、F1 44 print('precision:%.3f' % precision_score(y_true=y_test, y_pred=y_pred)) 45 print('recall:%.3f' % recall_score(y_true=y_test, y_pred=y_pred)) 46 print('F1:%.3f' % f1_score(y_true=y_test, y_pred=y_pred))标签:confmat,Wisconsin,Cancer,pred,train,Breast,test,import,sklearn From: https://www.cnblogs.com/xuanranxiajv/p/16746880.html