Python是一种强大的编程语言,它拥有丰富的工具库和功能,其中之一就是自带的数据集,这些数据集在Python中非常有用,可以用于机器学习、数据分析、科学研究等。使用Python数据集可以极大地简化项目开发过程。通过导入现有的数据集,我们可以更快地开始分析和建模,并且可以使用已经实现的算法进行评估和可视化。
一、线上数据的本地化
大家在自学Python/Stata/R的时候,有没有纠结过这个问题:想动手实践下感兴趣的命令或模型,那么就需要一个样本数据(dataframe,数据框)。去哪找省时省力,找到的数据集靠谱又好用呢?——还记之前提到过最简单的方法有两种,一是自己录入;二是导入软件自带的数据集。第一种录入数据方式一般的相关书籍都有介绍,至于第二种…...几乎很少提到过。
Available datasets2000多个数据集可下载
Kaggle机器学习社区数据集可下载
导入自带的数据集,简单、高效,数据往往也更加真实。应该成为初学者导入数据的首选方法。
有几个常见的数据集,想必很多用户都非常熟悉——比如Stata的auto和nlsw,R语言或Python中的Iris,mtcars和Titanic。
二、Python自带数据集的使用
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.keys())
print(iris.data.shape)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.data) #可操作的数据
在上面的代码中,我们导入了一个名为Load_iris的自带数据集,该数据集包含鸢尾花的物种,通过调用iris.keys(),我们可以看到数据集的各个组成部分,包括数据、特征、目标等。在调用iris.data.shape时,我们可以看到数据的形状。通过iris.feature_names和iris.target_names,我们可以获得特征和目标的名称。最后,用iris.target获取每个样本的目标类别。除了Iris数据集之外,Python还自带了许多其他数据集,例如波士顿房价、手写数字等。这些数据集可以用于学习数据科学和机器学习。通过使用自带数据集,您可以快速入门Python的数据分析和机器学习工具。
三、Pandas学习简图
Python 数据分析库 Pandas 基础知识的快速指南,包括代码示例。Pandas 的 Cheat Sheet 包含 Pandas 库的基础知识,从数据结构到 I/O,选择、删除索引或列、排序和排名、检索正在使用的数据结构的基本信息到应用函数和数据对齐。
The Pandas Cheat Sheet was created using Microsoft Powerpoint 2013.
To create the PDF version, within Powerpoint, simply do a "Save As" and pick "PDF" as the format.
This cheat sheet, originally written by Irv Lustig, Princeton Consultants, was inspired by the RStudio Data Wrangling Cheatsheet.
Topic | PPT | |
---|---|---|
Pandas_Cheat_Sheet | ||
Pandas_Cheat_Sheet_JA |
Alternative
Alternatively, if you want to complement your learning, you can use the Pandas Cheat sheets
developed by DataCamp in "PDF", "Google Colab" and "Streamlit" formats.
Topic | Streamlit | Google Colab | |
---|---|---|---|
Pandas |