首页 > 其他分享 >2.Sklearn库标准数据集及基本功能

2.Sklearn库标准数据集及基本功能

时间:2023-11-04 14:34:23浏览次数:36  
标签:load target data 基本功能 print 集及 sklearn 数据 Sklearn

1. sklearn数据集

波士顿房价数据集

波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包括城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿房价数据集能够应用到回归问题上。

使用sklearn.datasets.load boston即可加载相关数据集 重要参数: return_X_y: 表示是否返回target( 即价格),默认为False,只返回data( 即属性)
from sklearn.datasets import load_boston
boston = load_boston()
print(boston.data.shape)
#(506,13)

from sklearn.datasets import load_boston
data, target = load_boston(return_X_y=True)
print(data.shape)  # (506,13)
print(target.shape)  # (506)

鸢尾花数据集

鸢尾花数据集采集的是鸢尾花的测量数据以及其所属的类别。测量数据包括: 萼片长度、萼片宽度、花瓣长度、花瓣宽度。
类别共分为三类: Iris_Setosa,Iris_Versicolour,Iris_Virginica。 z数据集可用于多分类问题。

使用sklearn.datasets.load_iris即可加载相关数据集
参数:
return_X_y: 若为True,则以( data,target )形式返回数据;默认为False,表示以字典形式返回数据全部信息(包括data和target )

from sklearn.datasets import load_iris
iris = load_iris()
print(iris.data.shape)  # (150, 4)
print(iris.target.shape)  # (150,)
print(list(iris.target_names))  # ['setosa', 'versicolor', 'virginica']

手写数字数据集

手写数字数据集包括1797个0-9的手写数字数据,每个数字由8*8大小的矩构成,矩阵中值的范围是0-16,代表颜色的深度

使用sklearn.datasets.load_digits即可加载相关数据集
参数:
return_X_y:若为True,则以( data, target ) 形式返回数据;默认为False,表示以字典形式返回数据全部信息(包括data和target )

n_class: 表示返回数据的类别数,如: n_class=5,则返
回0到4的数据样本

from sklearn.datasets import load_digits
digits = load_digits()
print(digits.data.shape)
print(digits.target.shape)
print(digits.images.shape)

import matplotlib.pyplot as plt
plt.matshow(digits.images[0])
plt.show()

sklearn库的基本功能

sklearn库的共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。

标签:load,target,data,基本功能,print,集及,sklearn,数据,Sklearn
From: https://www.cnblogs.com/ratillase/p/17809297.html

相关文章

  • 【小沐学Python】Python实现Web图表功能(Dash之基本功能)
    1、简介Dash是下载量最大,最值得信赖的Python框架,用于构建ML和数据科学Web应用程序。Dash是一个用来创建web应用的python库,它建立在Plotly.js(同一个团队开发)、React和Flask之上,主要的用户群体是数据分析者、AI从业者,可以帮助他们快速搭建非常美观的网页应用,而且不需要......
  • sklearn-决策树
    目录决策树算法关键特征维度&判别条件决策树算法:选择决策条件纯度的概念信息增益增益率:基尼指数:纯度度量方法1)纯度函数%20%E7%BA%AF%E5%BA%A6%E5%87%BD%E6%95%B0)2)纯度度量函数%20%E7%BA%AF%E5%BA%A6%E5%BA%A6%E9%87%8F%E5%87%BD%E6%95%B0)编辑决策树算法关键了解了“if-else”......
  • 拼多多详情 API 接口数据采集及营销策略渠道店铺业务增长
    拼多多详情API接口可以提供丰富的商品信息和销售数据,通过数据采集和分析,企业可以制定更加精准的营销策略,促进业务增长。以下是使用拼多多详情API接口进行数据采集和营销策略制定的步骤和方法:步骤1:获取拼多多详情API接口的访问权限在拼多多开放平台注册并创建应用,获取API密......
  • C#对List取交集、差集及并集
    取交集 List1:{1,2,3,5,9}List2:{4,3,9}varintersectedList=list1.Intersect(list2).ToList();结果:{3,9}  取差集 List1:{1,2,3,5,9}List2:{4,3,9}varexpectedList=list1.Except(list2).ToList();结果:{......
  • auto_sklearn autosklearn AttributeError: 'NoneType' object has no attribute 'in
      Traceback(mostrecentcalllast): File"/home/software/anaconda3/envs/bert_env/lib/python3.7/site-packages/autosklearn/automl.py",line634,infit   self._logger=self._get_logger(dataset_name) File"/home/software/anaconda3/envs/b......
  • sklearn KMeans包结果无法复现
    随机问题numpy等随机数使用numpy等随机数时,一定要注意随机函数会首到上次随机结果的影响。e.g.#如果代码如下:importnumpyasnpnp.random.seed(20)#为numpy设置随机种子foriinrange(10):x=np.random.random()print(x)会发现每次随机的结果不一致,这是......
  • sklearn.pipeline的作用 函数参数解释及代码举例
    sklearn.pipeline是一个实用的工具,可以将多个数据预处理步骤和机器学习模型组合成一个整体,从而简化了机器学习的流程。Pipeline类可以将多个算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处:1.直接调用fit和predict方......
  • pandas.get_dummies与sklearn.preprocessing.OneHotEncoder
    pandas.get_dummies、sklearn.preprocessing.OneHotEncoder.fit_transform和sklearn.preprocessing.OneHotEncoder都用于对分类变量进行独热编码,但它们在实现和使用上有一些区别。pandas.get_dummies:解释:pandas.get_dummies是pandas库中的一个函数,用于将分类变量转化为虚拟变......
  • from sklearn.datasets.samples_generator import make_blobs
     fromsklearn.datasets.samples_generatorimportmake_blobsmake_blobs方法:sklearn.datasets.make_blobs(n_samples=100,n_features=2,centers=3,cluster_std=1.0,center_box=(-10.0,10.0),shuffle=True,random_state=None)make_blobs函数是为聚类或分类产生数据集,产生一......
  • 基于python的医疗问诊服务数据采集及可视化分析系统-计算机毕业设计源码+LW文档
    选题的目的、理论与实践意义:选题的目的:随着“互联网+”概念的兴起,有很多传统行业获得了新的发展契机。根据数据统计,用户足不出户就能享受优质的医疗服务,看病贵和看病难这样的问题通过线上医疗问诊得到有效的缓解。系统通过对网站你用户及为平台提供服务的医生,医疗服务数据,评价信息......