首页 > 其他分享 >借助Numpy,优化Pandas的条件检索代码

借助Numpy,优化Pandas的条件检索代码

时间:2024-03-21 14:23:16浏览次数:28  
标签:检索 OK df where 过滤 np Numpy Pandas

Numpy其实是最早的处理数据的Python库,它的核心ndarray对象,是一个高效的n维数组结构。

通过这个库,可以高效的完成向量和矩阵运算,由于其出色的性能,很多其他的数据分析,科学计算或者机器学习相关的Python库都或多或少的依赖于它。

Pandas就是其中之一,Pandas充分利用了NumPy的数组运算功能,使得数据处理和分析更加高效。
比如,Pandas中最重要的两个数据结构SeriesDataFrame在内部就使用了NumPyndarray来存储数据。

在使用Pandas进行数据分析的过程中,按条件检索和过滤数据是最频繁的操作。
本文介绍两种通过结合Numpy,一方面让Pandas的检索过滤代码更加简洁易懂,另一方面还能保障检索过滤的高性能。

1. 准备数据

第一步,先准备数据,这次使用二手房交易数据,可从 https://databook.top/lianjia/nj 下载。

import pandas as pd
import numpy as np

# 这个路径替换成自己的路径
fp = r'D:\data\南京二手房交易\南京江宁区.csv'

df = pd.read_csv(fp)
df.head()

image.png

2. 一般条件判断(np.where)

比如,买房前我们想先分析下已有的成交信息,对于房价能有个大致的印象。
下面,按照总价和单价,先挑选总价200~300万之间,或者单价1万以下的成交信息。
符合条件返回“OK”,否则返回“NG”

def filter_data(row):
    if row["totalPrice"] > 200 and row["totalPrice"] < 300:
        return "OK"

    if row["unitPrice"] < 10000:
        return "OK"

    return "NG"

df["评估"] = df.apply(filter_data, axis=1)
df[df["评估"] == "OK"].head()

image.png

上面的过滤数据写法是使用Pandas时用的比较多的方式,也就是将过滤条件封装到一个自定义函数(filter_data)中,然后通过 apply 函数来完成数据过滤。

下面我们用Numpynp.where 接口来改造上面的代码。
np.where类似Python编程语言中的if-else判断,基本语法:

import numpy as np

np.where(condition[, x, y])

其中:

  • condition:条件表达式,返回布尔数组。
  • x 和 y:可选参数,conditionTrue,返回x,反之,返回y

如果未提供xy,则函数仅返回满足条件的元素的索引。

改造后的代码如下:

# 根据单价过滤
cond_unit_price = np.where(
    df["unitPrice"] < 10000,
    "OK",
    "NG",
)

# 先根据总价过滤,不满足条件再用单价过滤
cond_total_price = np.where(
    (df["totalPrice"] > 200) & (df["totalPrice"] < 300),
    "OK",
    cond_unit_price,
)

df["评估"] = cond_total_price
df[df["评估"] == "OK"].head()

运行之后返回的结果是一样的,但是性能提升很多。
如果数据量是几十万量级的话,你会发现改造之后的代码运行效率提高了几百倍。

3. 复杂多条件判断(np.select)

上面的示例中,判断还比较简单,属于if-else,也就是是与否的判断。
下面设计一种更复杂的判断,将成交信息评估为“优良中差”4个等级,而不仅仅是“OK”“NG”
我们假设:

  1. :房屋精装,且位于中楼层,且近地铁
  2. :总价<300,且近地铁
  3. :总价<400
  4. :其他情况

用传统的方式,同样是封装一个类似filter_data的函数来判断“优良中差”4个等级,然后用 apply 函数来完成数据过滤。
这里就不演示了,直接看结合Numpynp.select接口,高效的完成“优良中差”4个等级的过滤。

np.select类似Python编程语言中的match匹配,基本语法:

numpy.select(condlist, choicelist, default=0)

其中:

  • condlist:条件列表,每个条件都是一个布尔数组。
  • choicelist:与 condlist 对应的数组列表,当某个条件为真时,返回该位置对应的数组中的元素。
  • default:可选参数,当没有条件为真时返回的默认值。
# 设置 “优,良,中” 的判断条件
conditions = [
    df["houseInfo"].str.contains("精装")
    & df["positionInfo"].str.contains("中楼层")
    & df["advantage"].str.contains("近地铁"),
    
    (df["totalPrice"] < 300) & df["advantage"].str.contains("近地铁"),
    
    df["totalPrice"] < 400,
]
choices = ["优", "良", "中"]

# 默认为 “差”
df["评估"] = np.select(conditions, choices, default="差")
df.head()

image.png
这样,就实现了一个对成交信息的分类。

4. 总结

np.wherenp.select的底层都是向量化的方式来操作数据,执行效率非常高。

所以,我们在使用Pandas分析数据时,应尽量使用np.wherenp.select来帮助我们过滤数据,这样不仅能够让代码更加简洁专业,而且能够极大的提高分析性能。

标签:检索,OK,df,where,过滤,np,Numpy,Pandas
From: https://www.cnblogs.com/wang_yb/p/18087288

相关文章

  • NumPy的矩阵运算
    #作者:小恒不会java#时间:2024年3月1日#微信:a13551458597importnumpyasnp#创建一个2x3的矩阵AA=np.array([[1,2,3],[4,7,9]])#获取矩阵A的形状shape_A=A.shape#对矩阵A进行转置运算得到矩阵BB=A.T#使用numpy的matmul函数进行矩阵乘法运算(注意......
  • 【Mysql数据库基础01】去重、连接字符、模糊查询、通配符、检索表的结构信息
    去重、连接字符、模糊查询、通配符、检索表的结构信息1去重distinct2连接字符函数concat(str1,str2,...)3模糊查询3.1like包含3.2通配符3.3betweenand3.4in3.5isnull4安全等于<=>5检索表的结构信息desc6课后练习1去重distinct使用DISTINCT关......
  • 九.pandas绘图基础
    目录九.pandas绘图基础1-柱状图--参数stacked=True堆积--参数figsize=(宽,高)--自定义横坐标--设置字体&显示负号2.箱型图3.折线图九.pandas绘图基础Pandas的DataFrame和Series,在matplotlib基础上封装了一个简易的绘图函数,使得我们在数据处理过程中方便可视化......
  • 100_pandas-Python的数据分析包
    目录什么是pandas索引操作赋值和排序算术运算和逻辑运算统计运算自定义函数运算pandas画图文件读取和存储缺失值处理-删除/替换数据离散化数据合并交叉表和透视表分组和聚合什么是pandas索引操作赋值和排序算术运算和逻辑运算统计运算自定义函数运算pandas画图文......
  • 090_Numpy-Python的科学计算库
    目录什么是NumpyN维数组-ndarrayndarray与Python原生list运算效率对比生成数组正态分布和均匀分布切片和形状修改类型修改和数组去重ndarray运算矩阵和向量矩阵向量加法和标量乘法矩阵向量乘法矩阵乘法矩阵乘法的性质逆、转置数组间运算什么是NumpyN维数组-ndarrayndarray......
  • 数据库数据查询:使用SELECT语句从数据库中检索数据
    这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注......
  • Spring Data Elasticsearch 自定义检索字段比重,计算得分
    BoolQueryBuilderfuzzyQuery=QueryBuilders.boolQuery();String[]matchFieldNames={"itemName","categoryNames","baseCategoryName","materialNameAilas","materialName",......
  • 303. 区域和检索 - 数组不可变
    目录题目前缀和题目给定一个整数数组nums,处理以下类型的多个查询:计算索引left和right(包含left和right)之间的nums元素的和,其中left<=right实现NumArray类:NumArray(int[]nums)使用数组nums初始化对象intsumRange(inti,intj)返回数组nums中索引......
  • “AttributeError: module ‘numpy‘ has no attribute ‘bool‘”解决方法
    问题描述使用NumPy库时遇到:AttributeError:module'numpy'hasnoattribute'bool'报错。错误原因目前最新的的NumPy版本(如1.26版本)中已经不再使用这个别名。解决方法方法1:将NumPy的版本降级,但是得注意并不是随便将至以前的版本都可以。下面是我测试过NumPy版本,都不行:pi......
  • LeetCode2024年3月18日每日一题(303. 区域和检索 - 数组不可变)
    303.区域和检索-数组不可变一维前缀和定义构建前缀和数组区间求和示例适用场景题目代码解释成员变量构造函数`sumRange`方法注释版代码一维前缀和是处理数组区间求和问题的一种非常有效的方法。它通过预处理输入数组,使得任何区间的和都可以在常数时间内被计算......