Python数据处理

时间：2022-10-05 09:33:26浏览次数：89

标签：索引 Python 数据 DataFrame df 数据处理 data 2010

Pandas

Series

一列带索引的数据

s = pd.Series(np.random.randn(5), name='Helloworld')

DataFrame

二维数据，多组Series的集合

df = pd.read_excel('GDP.xlsx')

重置索引

df = df.set_index('province')

更改列名

df.columns = '2010', '2019'
data = data.rename(columns = lambda x: x.lower()) #列名转化为小写

数据处理

data['2010'].sum()
data['2010'].mean()
data['2010'].max()
data['2010'].min()
data.describe() #查看描述性统计
data.info() #查看数据类型
df["价格"] = df["价格"].astype("float64") #数据类型转化

数据提取

iloc索引器按照位置进行基于整数的索引
```
df.iloc[0:3, 2:4] #选择1-3行，3-4列
```

loc索引器按照索引、布尔值或者条件选择数据

df.loc[['A','B'], ['C','D']] #选择多行多列
df.loc[df['first_name'] == 'DFL'] #按照布尔值选择

数据合并
- concat：沿着一条轴将多个DataFrame堆叠到一起
- append：将Series或字典数据添加到DataFrame
- merge：按照一个或多个键将不同DataFrame中的行连接起来
- join：将两个没用共同列名的数据进行快速合并，默认是保留被合并的数据索引
数据聚合
- 调用groupby函数，按照一列数据的不同组对DataFrame进行分组

apply函数

用于对当列数据遍历调用自定义函数
增加字段

df = pd.read_csv('./cook.csv') 
df['难度'] = df['用料数'].apply(lambda x:'简单'if x<5else('一般'if x<15 else'较难')) #增加难度字段

批量分割字符

df = df[df['楼层'].notnull()]
df['所在楼层']=df['楼层'].apply(lambda x:x.split('/')[0])
df['所在楼层'] = df['所在楼层'].astype("int32")

正则匹配

def get_subway_distance(row):
    distance=re.search(r'\d+(?=米)',row)
    if distance==None:
        return-1
    else:
        return distance.group()
df['距离地铁距离']=df['地铁'].apply(get_subway_distance)

导出和保存DataFrame

data.to_csv('food.csv', index=False, encoding='utf-8')
data.to_excel

#将数据写入mysql的数据库，但需要先通过sqlalchemy.create_engine建立连接,且字符编码设置为utf8，否则有些latin字符不能处理
from sqlalchemy import create_engine
connect = create_engine('mysql+pymysql://你的用户名:你的密码@localhost:端口号/数据库名?charset=utf8')
pd.io.sql.to_sql(data,'stock_quotes', connect, schema='test', if_exists='append',index=False)  #replace替换,append追加
#建议数据插入后，增加id字段并设置为自增主键，以后追加或更新数据时才不会报错

标签：索引,Python,数据,DataFrame,df,数据处理,data,2010
From： https://www.cnblogs.com/z5onk0/p/16755074.html

Python可视化
地图可视化pyecharts绘制各省市GDPfrompyecharts.globalsimportThemeType#引入主题Map(init_opts=opts.InitOpts(width="1000px",height="600px",theme=ThemeTyp......
python5-eg
1实例012programmer_1='程序员甲：搞IT太辛苦了，我想换行......怎么办？'3programmer_2='程序员乙：敲一下回车键'4print(programmer_1+'\n'+programmer_2)实......
Python 中四舍五入的方法，你真的会吗
Python的四舍五入，还真有点小麻烦。1、使用round大多数情况下，我们会使用round来保留小数，但这并不符合我们在数学知识里的规则。round(number[,ndigits])round()......
【笨方法学python】ex18 - 命名、变量、代码、函数
代码如下：点击查看代码#-*-coding:utf-8--*-#命名、变量、代码、函数#thisoneislikeyourscriptswithargvdefprint_two(*args): arg1,arg2=args pri......
python装饰器进阶指南
前言最近一有时间就在整理自己常用的代码片段，并做成了私人pip包，正好整理到了装饰器的部分，所以就想着写篇文章来总结一下。写这篇文章的目的是为了让大家对装饰器有一个更......
【笨方法学python】ex17 - 更多文件操作
代码如下：点击查看代码#-*-coding:utf-8--*-#更多文件操作fromsysimportargvfromos.pathimportexists#exists模块：将文件名字符串作为参数，如果文件存在，......
【笨方法学python】ex16 - 读写文件
代码如下：点击查看代码#-*-coding:utf-8--*-#读写文件#close-关闭文件（保存）。#read-读取文件内容，结果可赋值给一个变量。#readline-读取文本文件中的一......
python的入门TCP编程
一、创建TCP服务器创建TCP服务器的流程：使用socket创建一个套接字使用bind绑定IP和端口使用listen让套接字变成可以被动连接使用accept等待客户端的连接使用recv/send接收......
【笨方法学python】ex15 - 读取文件
代码如下：点击查看代码#-*-coding:utf-8--*-#读取文件fromsysimportargvscript,filename=argvtxt=open(filename)print"Here'syourfile%r:"%f......
【笨方法学python】ex13 - 参数、解包、变量
代码如下：点击查看代码#-*-coding:utf-8--*-#参数、解包、变量fromsysimportargv#argv是所谓的“参数变量”，是一个非常标准的编程术语。#包含了你传递给......

Python数据处理

Pandas

Series

DataFrame

相关文章

赞助商

阅读排行