首页 > 其他分享 >sklearn数据集的使用

sklearn数据集的使用

时间:2023-06-07 09:45:03浏览次数:36  
标签:iris datasets train 使用 print 数据 sklearn

一:安装

  pip install sklearn

 安装完成之后就是

 1.scikit-lenrn数据集API介绍

     sklearn.datasets
        加载获取流行数据集
        datasets.load_*()
           获取小规模数据集,数据包含在datasets里
       datasets.fetch_*(data_home=None)
         获取大规模数据集,需要从网络上下载,函数的第一个参数是
        data_home,表示数据集下载的目录,默认是~/scikit_learn_data/(要下载到哪里)

2.sklearn小数据集

 sklearn.datasets.load)iris()和sklearn.datasets.load_boston()

 3.sklearn大数据集

sklearn.datasets.fetch_20newsgroups(data_home=None,subser='train')这个是主要训练集,test是测试集,或者all都要

 4.数据集返回值

datasets.base.Bunch(继承自字典)
dict["key"] = values
bunch.key = values

from sklearn.datasets import load_iris


def datasets_demo():
    """
    sklearn数据集的使用
    :return:
    """
    # 获取数据集
    iris = load_iris()
    print("鸢尾花数据集:\n", iris)
    print("查看数据集的描述:\n", iris["DESCR"])
    print("查看特特征值的名字:\n", iris.feature_names)
    print("查看特征值:\n",iris.data, iris.data.shape)
    return


if __name__ == "__main__":
    # 代码1:sklearn()数据集的使用
    datasets_demo()

5.数据集的划分

拿到的数据使其一部分训练,一部分测试

训练数据:用于训练,构建模型
测试数据:在模型检验时使用,用于评估模型是否有效
测试集 20%~30%
sklearn.model_selection.train_test_split(arrays, *options)
训练集特征值,测试集特征值,训练集目标值,测试集目标值
x_train, x_test, y_train, y_test

 

 其中.shape是统计数量的,比如这个

一共有120行,每行有四个

 

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

def datasets_demo():
    """
    sklearn数据集的使用
    :return:
    """
    # 获取数据集
    iris = load_iris()
    print("鸢尾花数据集:\n", iris)
    print("查看数据集的描述:\n", iris["DESCR"])
    print("查看特特征值的名字:\n", iris.feature_names)
    print("查看特征值:\n",iris.data, iris.data.shape)
    # 数据集的划分
    x_train, x_test, y_train, y_test=train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
    print("训练集的特征值:\n", x_train, x_train.shape)
    return


if __name__ == "__main__":
    # 代码1:sklearn()数据集的使用
    datasets_demo()

 

 

 

 

 

标签:iris,datasets,train,使用,print,数据,sklearn
From: https://www.cnblogs.com/lipu123/p/17461866.html

相关文章

  • Python apend & extend 使用说明
    列表操作append()函数a.append(b):是将b原封不动的追加到a的末尾上,会改变a的值,其中,b可为列表、元组、字符串、一串数/字符/字符串append列表a=[1,2,3]b=['a','b']a.append(b)print(a)#[1,2,3,['a','b']]append元组a=[1,2,3]b=('a','b......
  • 健康食物功效大全ACCESS数据库
    记得之前采集过一个叫《近2千条日常食物营养表ACCESS数据库》的数据库,今天从一个叫营养师健康饮食的产品中获得了《健康食物功效大全ACCESS数据库》,感觉这个强劲很多。有食物主表、食物介绍、食物功效三个表。食物主表属性字段有:水分、酒精(克)、能量(卡)、蛋白质(克)、脂肪(克)......
  • 数据类型所占的字节数探究
    数据类型所占的字节数探究首先明确:操作系统的寻址能力和机器的地址总线宽度以及数据总线宽度都有关。地址总线宽度决定了机器中总共有多少物理地址,数据总线决定了OS能访问这些物理地址中的多少部分。32位系统的数据总线和地址总线宽度都为32位,因此,一次最多能够处理32位的数据,最......
  • 如何使用深度学习和TensorFlow实现计算机视觉
    越来越多的地方正在使用计算机视觉。从增强安全系统到改进医疗保健诊断,计算机视觉技术正在彻底改变多个行业。##课程先睹为快本课程经过精心设计,涵盖了广泛的主题,从张量和变量的基础知识到高级深度学习模型的实现,以应对人类情感检测和图像生成等复杂任务。在介绍了先决条件并......
  • Python中TensorFlow的长短期记忆神经网络(LSTM)、指数移动平均法预测股票市场和可视化
    原文链接:http://tecdat.cn/?p=23689最近我们被客户要求撰写关于LSTM的研究报告,包括一些图形和统计输出。本文探索Python中的长短期记忆(LSTM)网络,以及如何使用它们来进行股市预测 ( 点击文末“阅读原文”获取完整代码数据******** )。在本文中,你将看到如何使用一个被称为长短时......
  • Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|附代码
    图形和统计输出。在此数据集中,我们必须预测信贷的违约支付,并找出哪些变量是违约支付的最强预测因子?以及不同人口统计学变量的类别,拖欠还款的概率如何变化有25个变量:ID: 每个客户的IDLIMIT_BAL: 金额SEX: 性别(1=男,2=女)4.教育程度:(1=研究生,2=本科,3=高中,4=其他,5=未知)5.婚......
  • MATLAB偏最小二乘回归(PLSR)和主成分回归(PCR)分析光谱数据|附代码数据
    全文链接:http://tecdat.cn/?p=2655最近我们被客户要求撰写关于偏最小二乘回归(PLSR)和主成分回归(PCR)的研究报告,包括一些图形和统计输出。此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种方法的有效性当存在大量预测变量时,PLSR和PCR都是对因变量建模......
  • 数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化|附代码数据
    全文链接:http://tecdat.cn/?p=30680最近我们被客户要求撰写关于电影市场调查问卷数据的研究报告,包括一些图形和统计输出。这是一份有关消费者对电影市场看法及建议的调查报告,我们采取了问卷调查法,其中发放问卷256份,回收有效问卷200份 ( 点击文末“阅读原文”获取完整代码数据**......
  • Go Swagger安装及使用
    地址:https://github.com/swaggo/gin-swagger安装根据go版本使用命令1.70之前goget-ugithub.com/swaggo/swag/cmd/swag1.70之后goinstallgithub.com/swaggo/swag/cmd/swag@latest查看是否成功swag-vswagversionv1.8.12其他安装命令goget-ugithu......
  • el-row使用非零 gutter 时宽度溢出出现水平滚动条
    验证代码<template><div><el-alerttitle="1.如果为row直接添加gutter的话会导致超出父盒子的宽度,可以为父盒子设置左右的padding=gutter/2"type="success":closable="false"></el-alert><el-alert......