Pandas数据筛选

1.reindex()

df.reindex(index=列表,columns=列表)

import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
df1 = df.reindex([0, 1, 2, 4])
print(df1)

2.head() & tail()

df.head(n)
df.tail(n)

import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df.head(2))
print("=================")
print(df.tail(2))

3.随机抽样

df.sample(n=整数) #具体个数
df.sample(frac=小数) #百分比抽取

import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df.sample(n=2))
print("=================")
print(df.sample(frac=0.5))

4.逻辑比较

运算符	说明
&	与
\|	或
~	非

df[条件]

import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df[df["价格"] > 5])

5.过滤操作

(1)query()

df.query(判断条件)

import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df.query("价格>5"))

(2)filter()

df.filter(items,like,regex)
# items 列表 表示选取哪些列
# like 字符串 模糊选择
# regex 正则表示式 表示根据正则表达式列选取列

三个参数是互斥的，选一个即可,items,like和regex的对象都是列名

import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df.filter(items=["水果"]))
print("================")
print(df.filter(like="地"))
print("================")
print(df.filter(regex=".格"))

6.模式匹配

方法	说明
contains(A)	判断是否包含A
startswith	判断是否以A开头
endswith	判断是否以A结尾

import pandas as pd

data = [
    ['苹果', 5, '山东'],
    ['香蕉', 3, '海南'],
    ['橙子', 6, '江西'],
    ['西瓜', 2, '新疆'],
    ['草莓', 10, '辽宁'],
    ['葡萄', 8, '云南'],
    ['芒果', 7, '广西'],
    ['菠萝', 4, '广东'],
    ['梨', 4, '河北'],
    ['桃子', 5, '四川']
]
df = pd.DataFrame(data, columns=["水果", "价格", "产地"])
print(df["产地"].str.startswith("广"))

标签：df,data,pd,print,import,筛选,数据,Pandas,columns
From： https://www.cnblogs.com/hanstary/p/18279417

TDengine使用taosdump工具进行数据导出导入
数据备份（导出）可以使用命令导出sql相关文件，这些导出的相关文件可以导入时使用taosdump-o[导出文件存放路径，需要是已存在目录]-D[数据库名]导出所有数据库使用-A代替-D，后不跟数据库名，但是博主没成功，使用-D单独导出一个库是很稳定的，导出目录下包含一个sql文件和一个tdengin......
PART1-Oracle关系数据结构
2.Oracle关系数据结构2.1.表和表簇2.1.1.模式对象简介数据库模式是数据结构的逻辑容器，这些数据结构称为模式对象。模式对象的例子有表和索引。模式对象是通过SQL创建和操作的。一个数据库用户拥有密码和各种数据库权限。每个用户拥有一个与其同名的模式。模式包含了属于......
PART0-Oracle数据库介绍
1.Oracle数据库介绍1.1.关于关系型的数据库每个组织都有必须存储和管理的信息，以满足其需求。例如，公司必须收集和维护员工的人力资源记录。这些信息必须对需要它的人可用。信息系统是一个用于存储和处理信息的正式系统。信息系统可以是一组包含文件夹的纸箱，以及存储和检索文件......
2.FineReport连接MySQL数据库
1.服务器–定义数据连接2.添加JDBC3.配置连接4.添加数据库查询5.添加查询语句并预览结果......
京东商品详情数据接口（JD.item_get）
京东（JD.COM）作为一个大型电商平台，提供了丰富的API接口供开发者使用，以便实现与京东平台的数据交互。然而，关于你提到的“京东商品详情数据接口（JD.item_get）”，这并不是京东官方直接提供的API接口名称。京东的开放平台（JDP）通常提供了一系列API，如商品查询、订单查询、物流查询等，但具体......
神经网络图像数据训练集成应用 | 可视化图像处理 | 可视化训练器
〇、写在前面本应用基于开源UI框架PyDracula进行开发，除去最基本的UI框架外，所有功能的前后端实现都由我个人开发完成，但也有部分UI（如开关控件和进度条）是参考其他大佬的分享。这个应用是我的本科毕业设计，但因为个人能力不足，姑且只能使用Python+PySide6开发。开发这个应用的启发是，......
数据增强mosaic实现
mosaic是yolov4中提出的一个数据增强的方式，通过将4张图片拼接在一起送入训练，有效提升了模型的map。mosaic的优点包括如下：增加数据多样性，随机选取四张图像进行组合，组合得到图像个数比原图个数要多。增强模型鲁棒性，混合四张具有不同语义信息的图片，可以让模型检测超出常规语境的......
KES数据库实践指南：探索KES数据库的事务隔离级别
引言前两篇文章我们详细讲解了如何安装KES金仓数据库，并提供了快速查询和搭建基于coze平台的智能体的解决方案。今天，我们的焦点将放在并发控制机制和事务隔离级别上。本文将通过一系列实验操作，深入探讨KES数据库中的并发控制机制和事务隔离级别。我们将通过实际操作演示，帮助读者......
大型能源电力集团需要什么样的总部数据下发系统？
能源电力集团的组织结构是一个复杂的系统，包括多个职能部门和子分公司。这些子分公司负责具体的电力生产、销售、运维等业务。这些部门和公司协同工作，确保电力生产的顺利进行，同时关注公司的长期发展、市场拓展、人力资源管理、财务管理和公司治理等方面。由于大型能源电力集团在......
R语言数据分析案例38-高等教育学生成绩分析（多元线性回归）
一、研究背景学生成绩是衡量教育质量的重要指标，同时也是教育工作者进行教学反思和改进的重要依据。随着现代教育的不断发展，各类学科课程的设置日益多样化，学生的学习表现也呈现出复杂多样的特征。为了深入了解学生在各门课程中的表现，找出影响学生成绩的关键因素，有必要对学生成......

Pandas数据筛选

Pandas数据筛选

1.reindex()

2.head() & tail()

3.随机抽样

4.逻辑比较

5.过滤操作

(1)query()

(2)filter()

6.模式匹配

相关文章

赞助商

阅读排行