数据分析
数据载入及初步观察
载入数据
导入Numpy和pandas
import numpy as np
import pandas as pd
使用相对路径和绝对路径载入数据
df = pd.read_csv('train.csv')
df = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集合/train.csv')
绝对路径:绝对路径是指文件在硬盘上真正存在的路径
相对路径:相对于自己的目标文件位置
每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('train.csv', chunksize=1000)
想使用分块处理,只需在read_csv()方法中加入chunksize=100000(这里假设每一块有100000行)
df=pd.read_csv('data.csv',header=None,chunksize=100000)
然后使用for循环去每块每块地去处理(chunk的type是DataFrame)
for chunk in df:
print(chunk)
更改表头
修改列名a,b为A、B
df.columns = ['A','B']
只修改列名a为A
df.rename(columns={'a':'A'})
初步观察
观察前十行数据和后十五行数据
df.head(10)
df.tail(15)
打印摘要
df.info()
基本信息
df.info(): # 打印摘要
df.describe(): # 描述性统计信息
df.values: # 数据 <ndarray>
df.to_numpy() # 数据 <ndarray> (推荐)
df.shape: # 形状 (行数, 列数)
df.columns: # 列标签 <Index>
df.columns.values: # 列标签 <ndarray>
df.index: # 行标签 <Index>
df.index.values: # 行标签 <ndarray>
df.head(n): # 前n行
df.tail(n): # 尾n行
pd.options.display.max_columns=n: # 最多显示n列
pd.options.display.max_rows=n: # 最多显示n行
df.memory_usage(): # 占用内存(字节B)
判断数据是否为空
df.isnull()
保存数据
df.to_csv('train_chinese.csv')
pandas基础
DateFrame 和 Series
DataFrame既有行索引,也有列索引。类似于excel
行索引:index
列索引:columns
值:values
Series是一个一维的结构 可储存整数,浮点数,字符串,python对象等类型的数据
创建Series的语法:pd.Series();
常用的几个参数:
1.index,用于指定新的索引,
例如pd.Series(arr1,index=[‘a’,‘b’,‘c’,‘d’,‘e’])以a,b,c,d,e作为行索引;
2.dtype,用于指定元素的数据类型;
查看DataFrame数据的每列的项
df.columns
查看‘cabin’这列的所有项
df.Cabin
df['Cabin']
删除指定
筛选
pandas:数据筛选的8个操作_pandas筛选列表中的元素-CSDN博客
让行索引升序排序
sample.sort_index()
让列索引升序排序
sample.sort_index(axis=1)
让列索引降序排序
sample.sort_index(axis=1,ascending=False)
标签:数据分析,index,索引,python,datawhale,df,pd,csv,columns
From: https://www.cnblogs.com/hzlin6/p/18069393