首页 > 其他分享 >利用Numpy和Pandas浏览数据

利用Numpy和Pandas浏览数据

时间:2024-12-13 17:27:13浏览次数:4  
标签:例如 浏览 数据 可以 DataFrame Pandas Numpy 我们

我们先通过一个示例来看一下Numpy的作用:

通过示例我们可以看到,相比较于普通列表的乘2只是重复两次相同数据,导入Numpy模块后, 其元素会是真正数学意义上的乘二。因为Numpy数组是专门为支持数字数据的数学运算而设计的,这使得它们对于数据分析比一般列表更有用。

我们通过类型还注意到,Numpy数组的类型是numpy.ndarry。nd表示这是一个可以由多个维度组成的结构。(它可以有n个维度)

接下来我们看一下一些常用方法:

定义一个二维数组:

 Exploring tabular data with Pandas

Numpy提供了许多处理数字所需的功能和工具,例如数值数组。但是,当你开始处理二维数据表时,Pandas包提供了一个更方便的结构:DataFrame。

 在指定的列之外,DataFrame还包括唯一标识每一行的索引。我们可以显示地指定索引并分配任何类型的适当值(例如,电子邮件地址)。但是,因为我们没有指定索引,所以为每一行创建了一个唯一的整数值。

在DataFrame中查找和过滤数据

 

 Loading a DataFrame from a file

 

 DataFrame的读取_CSV方法用于从文本文件加载数据。如同示例,我们可以指定诸如分隔符和哪一行(如果有)包含列标题之类的选项。(在本例中,分隔符是逗号,第一行包含列名称。这些是默认设置,因此我们可以省略这些参数。)

Handling missing values

我们可以使用 isnull 方法去认证哪个个体值为空

对于较大的DataFrame,单独查看所有行和列将是低效的,因此我们可以像这样获得每个列的缺失值的总和。

现在我们知道少了一个StudyHours值和两个Grade值。

为了在上下文中查看它们,我们可以过滤DataFrame使其仅包含有缺失值的行。

 检查DataFrame时,缺少的值显示为Nan(不是数字)。

现在我们已经找到了空值,我们可以对它们做些什么呢?

一种常见的方法是估算重置价值。例如,如果缺少学习小时数,我们可以假设学生学习的平均时间,并用平均学习小时数替换缺失值。要做到这一点,我们可以使用Fillna方法:

 

 或者,确保您只使用您知道绝对正确的数据可能很重要。在这种情况下,可以使用dropna方法删除包含空值的行或列。例如,我们将删除任何列包含空值的行(DataFrame的轴0):

 

 Explore data in the DataFrame

现在我们已经清理了丢失的值,我们准备好探索DataFrame中的数据。让我们从比较平均学习时间和成绩开始。

Average weekly study hours: 10.52
Average grade: 49.18 

让我们过滤DataFrame,只查找学习时间超过平均时间的学生。

请注意,过滤后的结果本身就是一个DataFrame,因此您可以像处理任何其他DataFrame一样处理它的列。
例如,让我们找出平均学习时间超过平均学习时间的学生的平均成绩。

让我们假设这门课的及格分数是60分。
我们可以使用该信息向DataFrame添加一个新列,以指示每个学生是否通过考试。
首先,我们将创建一个包含通过/失败指示符(True或False)的PandasSeries,然后将该系列连接为DataFrame中的新列(轴1)。

DataFrame是为表格数据设计的,您可以使用它们来执行许多与关系数据库中相同类型的数据分析操作,例如对数据表进行分组和聚合。
例如,您可以使用groupby方法根据先前添加的Pass列将学生数据分组,并计算每个组中的姓名数。换句话说,你可以确定有多少学生通过和失败。

您可以使用任何可用的聚合函数将多个字段聚合到一个组中。例如,您可以查找通过和未通过课程的学生组的平均学习时间和成绩。

DataFrames是惊人的通用,使其易于操作数据。许多DataFrame操作都会返回DataFrame的新副本,因此如果要修改DataFrame但保留现有变量,则需要将操作结果赋给现有变量。例如,下面的代码将学生数据按年级降序排序,并将得到的排序后的DataFrame赋给原始的df_students变量。

 

 

 

 

 

 

 

 

 

 

 

 

 

标签:例如,浏览,数据,可以,DataFrame,Pandas,Numpy,我们
From: https://blog.csdn.net/2301_79805249/article/details/144450073

相关文章

  • 说一说浏览器的本地存储?各自优劣如何?
    浏览器的本地存储主要分为Cookie、WebStorage和IndexedDB,其中WebStorage又可以分为localStorage和sessionStorage。接下来我们就来一一分析这些本地存储方案。CookieCookie最开始被设计出来其实并不是来做本地存储的,而是为了弥补HTTP在状态管理上的不足。HTTP协议是一个无......
  • Google Chrome谷歌浏览器离线/绿色版本安装与彻底卸载
    一、离线安装1.下载官方最新安装包安装直接下载链接Windows32位最新稳定版:https://dl.google.com/tag/s/installdataindex/update2/installers/ChromeStandaloneSetup.exeWindows64位最新稳定版:https://dl.google.com/tag/s/installdataindex/update2/installers/Chrom......
  • 机器学习-numpy
    numpy学习自用机器学习复习笔记::想学好机器学习,我们应该先学好一个实用的工具,numpypython语言作为解释型语言还是太慢了,整合C/C++/Fortran代码的工具,希望在学习机器学习前应该熟练使用。如同:创建一个一维数组和二维数组我们对这个数组进行一个切片,一般来说我们要切出最后......
  • 打开浏览器访问网页时,显示无法连接到代理服务器,解决方案
    打开浏览器,访问任何网页都提示说检查代理服务器解决方案:1、win+r打开运行窗口2、输入inetcpl.cpl进入Internet属性界面3、选择连接-->局域网(LAN)设置4、点击局域网设置,将代理服务器的选框取消勾选5、再次访问网页,就可以正常访问了......
  • 利用OpenCV和Numpy实现图像校正
    实验原理图像透视变换是一种几何变换,它能够将图像中的点从一个平面映射到另一个平面,通常用于校正图像中的透视失真或者创建特殊的视觉效果。在计算机视觉和图像处理中,透视变换可以通过找到一组对应点(原图中的点和目标图中的点)并计算透视变换矩阵来实现。透视变换的关键步骤:......
  • 说一说浏览器缓存
    缓存是性能优化中非常重要的一环,浏览器的缓存机制对开发也是非常重要的知识点。接下来以三个部分来把浏览器的缓存机制说清楚:强缓存协商缓存缓存位置强缓存浏览器中的缓存作用分为两种情况,一种是需要发送HTTP请求,一种是不需要发送。首先是检查强缓存,这个阶段不需要发送H......
  • 解决Pandas的to_excel()写入不同Sheet,而不会被重写
    一、问题描述在使用Pandas的to_excel()方法写入数据时,当我们想将多个数据写入一个Excel表的不同DataFrame中,虽然能够指定sheet_name参数,但是会重写整个Excel之后才会存储。现在有3个sheet,内容如下:>>>importpandasaspd>>>df1=pd.read_excel('456.xlsx',sheet_name='Sh......
  • 解决Win11和Win10中谷歌Chrome浏览器速度慢问题的7种方法
    解决Win11和Win10中谷歌Chrome浏览器速度慢问题的7种方法,最近看到很多网友反映Win11/10中谷歌Chrome浏览器速度慢,所以今天小编就为大家带来了7种方法解决Win11和Win10中谷歌Chrome浏览器速度慢问题,一起看看吧。1、重启电脑让我们试试这个技巧来修复Windows11和Wi......
  • 获取浏览器摄像头
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,initial-scale=1.0"><title>CameraCapture</title>&......
  • 关于数据处理模块pandas
    前言:Pandas库是一个免费、开源的第三方Python库,是Python数据分析必不可少的工具之一,它为Python数据分析提供了高性能,且易于使用的数据结构,即Series和DataFrame。Pandas自诞生后被应用于众多的领域,比如金融、统计学、社会科学、建筑工程等。但想学习的人注意了,孔子有......