Python自带数据集加载和Pandas学习简图

时间：2023-11-29 09:22:36浏览次数：38

Python是一种强大的编程语言，它拥有丰富的工具库和功能，其中之一就是自带的数据集，这些数据集在Python中非常有用，可以用于机器学习、数据分析、科学研究等。使用Python数据集可以极大地简化项目开发过程。通过导入现有的数据集，我们可以更快地开始分析和建模，并且可以使用已经实现的算法进行评估和可视化。

一、线上数据的本地化

大家在自学Python/Stata/R的时候，有没有纠结过这个问题：想动手实践下感兴趣的命令或模型，那么就需要一个样本数据（dataframe，数据框）。去哪找省时省力，找到的数据集靠谱又好用呢？——还记之前提到过最简单的方法有两种，一是自己录入；二是导入软件自带的数据集。第一种录入数据方式一般的相关书籍都有介绍，至于第二种…...几乎很少提到过。

Available datasets2000多个数据集可下载
 Kaggle机器学习社区数据集可下载

导入自带的数据集，简单、高效，数据往往也更加真实。应该成为初学者导入数据的首选方法。
有几个常见的数据集，想必很多用户都非常熟悉——比如Stata的auto和nlsw，R语言或Python中的Iris，mtcars和Titanic。

二、Python自带数据集的使用

from sklearn.datasets import load_iris
iris = load_iris()
print(iris.keys())
print(iris.data.shape)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.data)                 #可操作的数据

在上面的代码中，我们导入了一个名为Load_iris的自带数据集，该数据集包含鸢尾花的物种，通过调用iris.keys()，我们可以看到数据集的各个组成部分，包括数据、特征、目标等。在调用iris.data.shape时，我们可以看到数据的形状。通过iris.feature_names和iris.target_names，我们可以获得特征和目标的名称。最后，用iris.target获取每个样本的目标类别。除了Iris数据集之外，Python还自带了许多其他数据集，例如波士顿房价、手写数字等。这些数据集可以用于学习数据科学和机器学习。通过使用自带数据集，您可以快速入门Python的数据分析和机器学习工具。

三、Pandas学习简图

Python 数据分析库 Pandas 基础知识的快速指南，包括代码示例。Pandas 的 Cheat Sheet 包含 Pandas 库的基础知识，从数据结构到 I/O，选择、删除索引或列、排序和排名、检索正在使用的数据结构的基本信息到应用函数和数据对齐。

The Pandas Cheat Sheet was created using Microsoft Powerpoint 2013.
To create the PDF version, within Powerpoint, simply do a "Save As" and pick "PDF" as the format.
This cheat sheet, originally written by Irv Lustig, Princeton Consultants, was inspired by the RStudio Data Wrangling Cheatsheet.

Topic	PDF	PPT
Pandas_Cheat_Sheet
Pandas_Cheat_Sheet_JA

Alternative

Alternatively, if you want to complement your learning, you can use the Pandas Cheat sheets
developed by DataCamp in "PDF", "Google Colab" and "Streamlit" formats.

Topic	PDF	Streamlit	Google Colab
Pandas

标签：iris,Python,数据,print,自带,简图,Pandas
From： https://www.cnblogs.com/haohai9309/p/17863650.html

python利用with语句分割长函数代码块的小技巧
如果某个函数实现很长,有时候希望把函数分割成若干部分,并且可以折叠,执行时能够打印日志.可以采用下面的办法来实现:frommylogimportloggerimporttimeclassMyTask:def__init__(self,task:str)->None:self.task:str=taskself.start_time......
关于Python类型注解的几个实用小技巧
虽然python是动态类型语言,但是python3.5引入的类型注解特性却很有用.不但有助于源码阅读,而且在类型提示和代码自动补全上也很方便.但是它毕竟不是静态类型编译型语言,有一些特殊的情况,需要一些小技巧才能够处理.引用后面定义的类型由于python不是编译型语言,如果在前......
python变量 sys.path和import导入
一前言：sys.path是一个重要的变量数据,在使用import导入包和模块时就会从sys.path里面去寻找包和模块二sys.path用python命令运行相关py文件或者目录时,会添加一些路径到sys.path的开头,还会添加环境变量到里面，看看官网的介绍有的时候添加的是工作目录，有的时候添加的是py文......
python异步迭代器和普通迭代器的区别
正常迭代器：在Python中，我们可以通过定义__iter__和__next__方法来创建迭代器。在每次调用__next__方法时，迭代器会返回下一个值，直到没有更多的值可以返回，然后它将引发StopIteration异常。这种迭代方式是同步的，意味着每次迭代操作都会等待前一个操作完成。这种方式适合处理大量数据......
pyc逆向以及DASCTF里的ezpython复现
pyc文件结构分析pyc文件是Python在解释执行源代码时生成的字节码文件，可以直接由Python虚拟机执行。重点了解了下文件头，还不太了解其他部分怎么出题。参考pythonpyc加花指令pyc文件头参考深入理解python虚拟机：pyc文件结构Python代码保护|pyc混淆从入门到工具实现mag......
DataFrame数据框的Python操作
探索和清理数据听起来很无聊，而且不像训练最先进的AI模型那么酷。但如果你想成为一名专业的数据科学家，探索性数据分析和数据预处理也是必不可少的技能。幸运的是，有许多很棒的工具可以帮助您了解数据集。著名的Python数据处理模块Pandas就是其中之一。DataFrame是一个二维的表......
聪明办法学python-11.27——11.29笔记打卡
一、python中条件语句的应用总体代码结构为：ifTrue：dosomethingelse：doother简单描述为“True”为条件，当条件为真的时候，执行“dosomething”，否则就执行“doother”。例如：任务：实现一个函数，返......
【Python】【OpenCV】傅里叶变换
之前的随笔中使用了C++来编写算法底层逻辑，这次我们直接使用OpenCV和Numpy和Scipy所提供的方法直接调用实现1importcv22importnumpy3fromscipyimportndimage45kernel_3=numpy.array([6[-1,-1,-1],7[-1,8,-1],8[-1,-1,-1]9])......
聪明办法学Python_task3_11.27-11.28
聪明办法学Python_task3_11.27-11.28聪明办法学Python_task3_11.27-11.281.task05条件1.1if-else语句1.2if-else推导式1.3match-case语句2.talk01代码风格1.task05条件1.1if-else语句分为if、if-else、if-elif-elseif条件1:语句1elif条件2:......
聪明办法学Python Task05&选学01
条件CONDITIONALSif语句语法为：if条件:选择执行的语句#要有缩进，一般为四个空格“如果”条件为True，就会去执行接下来的内容。“如果”条件为False，就跳过。*注意：*1.条件后面有冒号2.if内部的语句需要有一个统一的*缩进*，一般为四个空格，特别注......

Python自带数据集加载和Pandas学习简图

一、线上数据的本地化

二、Python自带数据集的使用

三、Pandas学习简图

相关文章

赞助商

阅读排行