首页 > 其他分享 >pandas 读取csv 数据,筛选数据

pandas 读取csv 数据,筛选数据

时间:2024-04-08 20:22:32浏览次数:22  
标签:qq 读取 df sex 筛选 csv com pandas

前言

Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。
Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。
Pandas 主要引入了两种新的数据结构:DataFrame 和 Series。

环境准备

先 pip 安装 pandas :

pip install pandas

读取csv数据

有个data.csv 数据文件

name,sex,age,email
张三,男,22,[email protected]
李四,男,23,[email protected]
王五,女,24,[email protected]
张六,男,22,[email protected]
李七,男,23,[email protected]
小明,女,24,[email protected]
张山,女,24,[email protected]
王二,男,23,[email protected]
王九,男,23,[email protected]
李明,男,20,[email protected]
刘三,男,29,[email protected]
刘四,男,28,[email protected]

下面的例子通过读取一个CSV文件来进行数据筛选

import pandas


df = pandas.read_csv('data.csv')
print(df)

运行结果:

   name sex  age       email
0    张三   男   22  [email protected]
1    李四   男   23  [email protected]
2    王五   女   24  [email protected]
3    张六   男   22  [email protected]
4    李七   男   23  [email protected]
5    小明   女   24  [email protected]
6    张山   女   24  [email protected]
7    王二   男   23  [email protected]
8    王九   男   23  [email protected]
9    李明   男   20  [email protected]
10   刘三   男   29  [email protected]
11   刘四   男   28  [email protected]

按条件筛选数据

1.筛选 sex==男 的数据

import pandas


df = pandas.read_csv('data.csv')
# print(df)
# 1.筛选sex == 男
print(df[df['sex'] == '男'])

2.筛选age >= 25

# 2.筛选age >= 25
print(df[df['age'] >= 25])

3.方法2,使用query方法筛选数据

# 3.query 筛选数据
print(df.query("sex == '男'"))
print(df.query("age >= 24"))

多条件筛选

筛选同时满足age >= 23, 并且sex == '女'
方法一:使用多个逻辑运算符进行筛选

# 方法一:使用多个逻辑运算符进行筛选
print(df[(df['age'] >= 24) & (df['sex'] == '女')])

方法二:使用query函数进行筛选

# 方法二:使用query函数进行筛选
print(df.query("age >= 24 and sex == '女'"))

筛选列

只需要name列的数据

print(df['name'])

获取name、email列的数据

print(df[['name', 'email']])

获取name、email列的数据, 并且sex == '女'

print(df[['name', 'email']][df['sex'] == '女'])

筛选数据写到新的csv

筛选 sex == '女' 的数据,写到新的csv

import pandas


df = pandas.read_csv('data.csv')

new_df = df[df['sex'] == '女']
new_df.to_csv('new.csv', index=False)

写入后 new.csv 的数据

name,sex,age,email
王五,女,24,[email protected]
小明,女,24,[email protected]
张山,女,24,[email protected]

标签:qq,读取,df,sex,筛选,csv,com,pandas
From: https://www.cnblogs.com/yoyoketang/p/18122445

相关文章

  • 用node读取Excel指定sheet并输出想要的数据结构
    数据部门维护了一个Excel表格,前端显示需要其中一个sheet的数据,这个表老是更新,想着用node写一个程序,每次数据部门更新直接跑一遍。直接上代码:constXLSX=require('xlsx');constpath=require('path');constfs=require('fs');//读取Excel文件constexcelFile='要读......
  • KALDI-IO库的生成与读取
    https://blog.csdn.net/nwnu_908/article/details/117354174?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171254323616800184167343%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=171254323616800184167343&biz_id=0&a......
  • 【C语言】文件操作(打开,关闭,写入,读取,指针位置)
    文件操作的函数在标准库stdio.h中。#include<stdio.h>1、fopen,fclose 打开文件,关闭文件fopen:打开文件。fclose:关闭文件。补充:perror:输出errno对应的错误信息。fopen:  FILE *fopen(constchar*filename,constchar*mode)参数:filename是字符串(要打开的文......
  • STK入门(星座建立、导出卫星位置csv、地图源图片位置)
    1.建立星座1.1初始化场景打开STK,依次点击continue-createanewscenario记住场景命名和保存位置默认的仿真时间是一天,暂不需要修改点击ok耐心等待较长时间1.2建立种子卫星场景建立好以后自动弹出Insert 选择Satellite-Orbitwizard主要定义参数为:轨道倾角Incl......
  • pandas中cummin() 函数的应用
    cummin()函数用于计算DataFrame或Series中数值型数据的累积最小值。它将沿着指定的轴(行或列)对数据进行累积求最小值,并返回一个具有相同形状的DataFrame或Series。下面是一个示例,说明如何使用cummin()函数:        importpandasaspd#创建一个DataFram......
  • opencv基础操作:读取图片时使用灰度方式、转换颜色空间、使用opencv展示图片、使用open
    包含的操作有:读取图片时使用灰度方式转换颜色空间使用opencv展示图片使用opencv对BGR通道进行划分并展示,需要注意的是直接使用cv2.split()得到的B,G,R分别是单通道的,因此最终展示出来为灰度图像。    如果想保留彩色图像,可以直接对img切片来实现。使用opencv在一个窗口......
  • 使用redis-server &启动redis,没有读取到最新配置
    今天搭redis主从架构的时候,使用 redis-server& 启动redis时,一直没有读取到修改后的配置文件,得使用 redis-server/home/redis-7.2.4/redis.conf& 才可以后面查了下,redis.conf配置中开头有一段注释,说明为了读取配置文件,必须在启动Redis时将配置文件路径作为第一个参数传递......
  • Pandas基础使用(三)
    apply()函数path=r"C:\work\python\pandas_files\计算列.xlsx"data=pd.read_excel(path)print(data)defhs(a):returnlen(a)b=data['商品名称'].apply(hs)print(b)#使用lambda表达式b=data['商品名称'].apply(lambdaa:len(a))pr......
  • 数据的规范化——Pandas处理
    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评......
  • 【数据处理包Pandas】数据载入与预处理
    目录一、数据载入二、数据清洗(一)Pandas中缺失值的表示(二)与缺失值判断和处理相关的方法三、连续特征离散化四、哑变量处理 准备工作导入NumPy库和Pandas库。importnumpyasnpimportpandasaspd一、数据载入对于数据分析而言,数据大部分来源于外部数......