首页 > 其他分享 >Pandas数据筛选

Pandas数据筛选

时间:2024-07-02 10:44:01浏览次数:1  
标签:df data pd print import 筛选 数据 Pandas columns

Pandas数据筛选

1.reindex()

df.reindex(index=列表,columns=列表)
import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
df1 = df.reindex([0, 1, 2, 4])
print(df1)

2.head() & tail()

df.head(n)
df.tail(n)
import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df.head(2))
print("=================")
print(df.tail(2))

3.随机抽样

df.sample(n=整数) #具体个数
df.sample(frac=小数) #百分比抽取
import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df.sample(n=2))
print("=================")
print(df.sample(frac=0.5))

4.逻辑比较

运算符 说明
&
|
~
df[条件]
import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df[df["价格"] > 5])

5.过滤操作

(1)query()

df.query(判断条件)
import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df.query("价格>5"))

(2)filter()

df.filter(items,like,regex)
# items 列表 表示选取哪些列
# like 字符串 模糊选择
# regex 正则表示式 表示根据正则表达式列选取列

三个参数是互斥的,选一个即可,items,like和regex的对象都是列名

import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df.filter(items=["水果"]))
print("================")
print(df.filter(like="地"))
print("================")
print(df.filter(regex=".格"))

6.模式匹配

方法 说明
contains(A) 判断是否包含A
startswith 判断是否以A开头
endswith 判断是否以A结尾
import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df["产地"].str.startswith("广"))

标签:df,data,pd,print,import,筛选,数据,Pandas,columns
From: https://www.cnblogs.com/hanstary/p/18279417

相关文章

  • TDengine使用taosdump工具进行数据导出导入
    数据备份(导出)可以使用命令导出sql相关文件,这些导出的相关文件可以导入时使用taosdump-o[导出文件存放路径,需要是已存在目录]-D[数据库名]导出所有数据库使用-A代替-D,后不跟数据库名,但是博主没成功,使用-D单独导出一个库是很稳定的,导出目录下包含一个sql文件和一个tdengin......
  • PART1-Oracle关系数据结构
    2.Oracle关系数据结构2.1.表和表簇2.1.1.模式对象简介数据库模式是数据结构的逻辑容器,这些数据结构称为模式对象。模式对象的例子有表和索引。模式对象是通过SQL创建和操作的。一个数据库用户拥有密码和各种数据库权限。每个用户拥有一个与其同名的模式。模式包含了属于......
  • PART0-Oracle数据库介绍
    1.Oracle数据库介绍1.1.关于关系型的数据库每个组织都有必须存储和管理的信息,以满足其需求。例如,公司必须收集和维护员工的人力资源记录。这些信息必须对需要它的人可用。信息系统是一个用于存储和处理信息的正式系统。信息系统可以是一组包含文件夹的纸箱,以及存储和检索文件......
  • 2.FineReport连接MySQL数据库
    1.服务器–定义数据连接2.添加JDBC3.配置连接4.添加数据库查询5.添加查询语句并预览结果......
  • 京东商品详情数据接口(JD.item_get)
    京东(JD.COM)作为一个大型电商平台,提供了丰富的API接口供开发者使用,以便实现与京东平台的数据交互。然而,关于你提到的“京东商品详情数据接口(JD.item_get)”,这并不是京东官方直接提供的API接口名称。京东的开放平台(JDP)通常提供了一系列API,如商品查询、订单查询、物流查询等,但具体......
  • 神经网络图像数据训练集成应用 | 可视化图像处理 | 可视化训练器
    〇、写在前面本应用基于开源UI框架PyDracula进行开发,除去最基本的UI框架外,所有功能的前后端实现都由我个人开发完成,但也有部分UI(如开关控件和进度条)是参考其他大佬的分享。这个应用是我的本科毕业设计,但因为个人能力不足,姑且只能使用Python+PySide6开发。开发这个应用的启发是,......
  • 数据增强mosaic实现
    mosaic是yolov4中提出的一个数据增强的方式,通过将4张图片拼接在一起送入训练,有效提升了模型的map。mosaic的优点包括如下:增加数据多样性,随机选取四张图像进行组合,组合得到图像个数比原图个数要多。增强模型鲁棒性,混合四张具有不同语义信息的图片,可以让模型检测超出常规语境的......
  • KES数据库实践指南:探索KES数据库的事务隔离级别
    引言前两篇文章我们详细讲解了如何安装KES金仓数据库,并提供了快速查询和搭建基于coze平台的智能体的解决方案。今天,我们的焦点将放在并发控制机制和事务隔离级别上。本文将通过一系列实验操作,深入探讨KES数据库中的并发控制机制和事务隔离级别。我们将通过实际操作演示,帮助读者......
  • 大型能源电力集团需要什么样的总部数据下发系统?
    能源电力集团的组织结构是一个复杂的系统,包括多个职能部门和子分公司。这些子分公司负责具体的电力生产、销售、运维等业务。这些部门和公司协同工作,确保电力生产的顺利进行,同时关注公司的长期发展、市场拓展、人力资源管理、财务管理和公司治理等方面。由于大型能源电力集团在......
  • R语言数据分析案例38-高等教育学生成绩分析(多元线性回归)
    一、研究背景学生成绩是衡量教育质量的重要指标,同时也是教育工作者进行教学反思和改进的重要依据。随着现代教育的不断发展,各类学科课程的设置日益多样化,学生的学习表现也呈现出复杂多样的特征。为了深入了解学生在各门课程中的表现,找出影响学生成绩的关键因素,有必要对学生成......