首页 > 其他分享 >机器学习实战笔记3乳腺癌数据集

机器学习实战笔记3乳腺癌数据集

时间:2024-07-17 16:57:34浏览次数:26  
标签:实战 cancer target 乳腺癌 笔记 train breast test data

乳腺癌数据集

1.加载数据集

from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
print(breast_cancer["DESCR"])

输出乳腺癌数据集的详细描述,通常包括数据集的来源、特征的解释、数据集的版权信息等。

2.查看data和target

data=breast_cancer["data"]
target=breast_cancer["target"]

data.shape

target.shape

type(data),type(target)

data[:10]

target[:10]

3.合并data和target

import numpy as np
all_datas=np.c_[data,target]#将两个数据在列方向上合并
all_datas.shape
all_datas[:3]

4.生成pandas的df

breast_cancer["feature_names"]

import pandas as pd
#数据拼接
df = pd.DataFrame(
 np.c_[data,target],
    columns = list(breast_cancer["feature_names"])+["target"]
)
df.head(3)
  1. 使用np.c_合并数据np.c_numpy中的一个函数,用于按列合并数组。在这个例子中,它将特征数据data和目标数据target水平合并。

from sklearn.model_selection import train_test_split

5.使用 train_test_split 函数将数据集分割为训练集和测试集。

x_train,x_test,y_train,y_test = train_test_split(data,target,random_state=40,test_size=0.25)

分割:random_state随机种子,test_size25%是测试集

x_train.shape,x_test.shape,y_train.shape,y_test.shape

6.训练数据集数据分布

for name,array in zip(
    ["target","y_train","y_test"],[target,y_train,y_test]):
    print()
    print(name)
    print(pd.Series(array).value_counts(normalize=True))

遍历包含列名和对应数组(或序列)的列表,并打印出每个数组中各个值的频率(比例)

7.训练测试集的均匀拆分

x_train,x_test,y_train,y_test = train_test_split(data,target,random_state=40,test_size=0.25,stratify=target)#加个参数目的是为了保持训练集和验证集(或测试集)中各类别的比例与整个数据集中的比例相同。

加个参数目的是为了保持训练集和验证集(或测试集)中各类别的比例与整个数据集中的比例相同。

for name,array in zip(
    ["target","y_train","y_test"],[target,y_train,y_test]):
    print()
    print(name)
    print(pd.Series(array).value_counts(normalize=True))

标签:实战,cancer,target,乳腺癌,笔记,train,breast,test,data
From: https://blog.csdn.net/yyyy2711/article/details/140497050

相关文章

  • 机器学习实战笔记4线性回归
    线性回归首先看一下线性回归方程,就是用代码来编写方程1.numpy正规方程线性回归importnumpyasnpimportpandasaspddf=pd.DataFrame({'years':[1,2,3,4,5,6],'salary':[4000,4250,4500,4750,5000,5250]})df生成dfm=len(df)m输出:6x1=df......
  • 负载均衡-Ribbon-微服务核心组件【分布式微服务笔记03】
    负载均衡-Ribbon-微服务核心组件【分布式微服务笔记03】负载均衡-Ribbon基本介绍SpringCloudRibbon是基于NetflixRibbon实现的一套客户端负载均衡的工具。Ribbon主要功能是提供客户端负载均衡算法和服务调用Ribbon客户端组件提供一系列完善的配置项如连接超时,重试等......
  • CDQ 分治学习笔记
    CDQ分治的流程大致是将对于区间\([l,r]\)中点\(x,y\)的计数分为两类处理:\(x,y\)均位于\([l,mid]\)或\([mid+1,r]\)中,这样的点对贡献可以递归解决。\(x,y\)分别位于\([l,mid]\)和\([mid+1,r]\)中,这样的点对通过一些操作来统计贡献。显然这两类贡献之和即为......
  • 恢复 iPhone 上误删除笔记的 5 种绝佳方法
    您想知道如何恢复iPhone上误删除的笔记吗?阅读本指南,了解5种简单方法,可直接或通过iTunes/iCloud备份检索iPhone上丢失或删除的笔记。iPhoneNotes应用程序提供了一种方便的方式来记录重要信息,包括文本、图片、链接和许多其他类型的信息。但是,各种原因仍可能导致iPhon......
  • PYTHON学习笔记(二、python结构语句)
    (1)顺序语句结构neme=input('请输入你的名字:')year=eval(input('请输入你的年龄:'))number=eval(input('请输入你的中奖号码:'))print('我爱中国!!')print('我爱CSDN!!')运行终端后,我可以看到以下结果:(2)分支语句结构(if语句的基本格式)neme=input('请输入你的名字:......
  • 服务注册/发现-Eureka-微服务核心组件【分布式微服务笔记02】
    服务注册/发现-Eureka-微服务核心组件【分布式微服务笔记02】服务注册/发现-Eureka目前主流的服务注册&发现的组件是Nacos,但是Eureka作为一个老牌经典的服务注册&发现技术还是有必要学习一下,原因:一些早期的分布式微服务项目使用的是Eureka,在工作中,完全有可能遇到.后......
  • Python学习笔记—100页Opencv详细讲解教程
    目录1创建和显示窗口...-4-2加载显示图片...-6-3保存图片...-7-4视频采集...-8-5视频录制...-11-6控制鼠标...-12-7TrackBar控件...-14-8.RGB和BGR颜色空间...-16-9.HSV和HSL和YUV..-17-10颜色空间的转化...-18-11mat的深......
  • JAVA笔记七
    七、数组1.数组的概念(1)一个具有固定大小,可以容纳相同类型数据的集合(2)数组元素的类型可以是基本类型,也可以是引用类型(3)数组可以认为是Java中最简单的复合类型(4)数组的声明和使用,在语法上与C语言类似,但是在内部实现机制上有本质的区别2.数组的声明int[]arr;或者in......
  • Golang 百题(实战快速掌握语法)_3
    目录是否包含空格知识点运行程序总结替换指定范围的字符知识点运行程序总结返回最大值知识点运行程序总结反转字符串知识点运行程序总结创建set类型知识点运行程序总结将度转换为弧度知识点运行程序总结限制数知识点运行程序总结二的幂知识点......
  • 零基础STM32单片机编程入门(十五) DHT11温湿度传感器模块实战含源码
    文章目录一.概要二.DHT11主要性能参数三.DHT11温度传感器内部框图四.DTH11模块原理图五.DHT11模块跟单片机板子接线和通讯时序1.单片机跟DHT11模块连接示意图2.单片机跟DHT11模块通讯流程与时序六.STM32单片机DHT11温度传感器实验七.CubeMX工程源代码下载八.小结一.......