python数据分析 datawhale

时间：2024-03-12 21:44:53浏览次数：48

标签：数据分析 index 索引 python datawhale df pd csv columns

数据分析

数据载入及初步观察

载入数据

导入Numpy和pandas

import numpy as np
import pandas as pd

使用相对路径和绝对路径载入数据

df = pd.read_csv('train.csv')
df = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集合/train.csv')

绝对路径：绝对路径是指文件在硬盘上真正存在的路径

相对路径：相对于自己的目标文件位置

每1000行为一个数据模块，逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

想使用分块处理，只需在read_csv()方法中加入chunksize=100000（这里假设每一块有100000行）

df=pd.read_csv('data.csv',header=None,chunksize=100000)

然后使用for循环去每块每块地去处理（chunk的type是DataFrame）

for chunk in df:
	print(chunk)

更改表头

修改列名a，b为A、B

df.columns = ['A','B']

只修改列名a为A

df.rename(columns={'a':'A'})

初步观察

观察前十行数据和后十五行数据

df.head(10)
df.tail(15)

打印摘要

df.info()

基本信息

df.info():          # 打印摘要
df.describe():      # 描述性统计信息
df.values:          # 数据 <ndarray>
df.to_numpy()       # 数据 <ndarray> (推荐)
df.shape:           # 形状 (行数, 列数)
df.columns:         # 列标签 <Index>
df.columns.values:  # 列标签 <ndarray>
df.index:           # 行标签 <Index>
df.index.values:    # 行标签 <ndarray>
df.head(n):         # 前n行
df.tail(n):         # 尾n行
pd.options.display.max_columns=n: # 最多显示n列
pd.options.display.max_rows=n:    # 最多显示n行
df.memory_usage():                # 占用内存(字节B)

判断数据是否为空

df.isnull()

保存数据

df.to_csv('train_chinese.csv')

pandas基础

DateFrame 和 Series

DataFrame既有行索引，也有列索引。类似于excel

行索引：index
列索引：columns
值：values

Series是一个一维的结构可储存整数，浮点数，字符串，python对象等类型的数据
创建Series的语法：pd.Series()；
常用的几个参数：

1.index，用于指定新的索引，
例如pd.Series(arr1,index=[‘a’,‘b’,‘c’,‘d’,‘e’])以a,b,c,d,e作为行索引；
2.dtype，用于指定元素的数据类型；

查看DataFrame数据的每列的项

df.columns

查看‘cabin’这列的所有项

df.Cabin
df['Cabin']

删除指定

筛选

pandas：数据筛选的8个操作_pandas筛选列表中的元素-CSDN博客

让行索引升序排序

sample.sort_index（）

让列索引升序排序

sample.sort_index(axis=1)

让列索引降序排序

sample.sort_index(axis=1，ascending=False)

标签：数据分析,index,索引,python,datawhale,df,pd,csv,columns
From： https://www.cnblogs.com/hzlin6/p/18069393

Python入门学习笔记（1）Python&VS code下载与配置
去年夏天，笔者拿到EricMatthes所著的蟒蛇书，一番学习下，为其细致与条理所触动。作为曾经学过C++的NOIP退役选手，笔者深知一个好的语言基础对于后续学习的巨大作用。费曼提到，把新知识、复杂概念解释给完全不懂的人听，是最好的提升知识质量、把知识点融入自己的知识体系的方法。因此......
Python实战：变量命名规范：编写优雅代码的关键
在Python编程中，变量命名规范对于编写优雅和可维护的代码至关重要。本文将深入探讨Python中的变量命名规则和最佳实践，包括命名约定、避免命名冲突以及命名中的注意事项。我们将通过具体的代码示例来展示如何遵循命名规范来编写优雅的代码，并理解命名规范在编程中的重要性。1.......
Python实战：Python注释：编写清晰程序说明书
在Python编程中，注释是编写清晰程序说明书的最佳实践。本文将深入探讨Python中的注释，包括注释的类型、使用方法和最佳实践。我们将通过具体的代码示例来展示如何使用不同类型的注释来编写程序说明，并理解注释在编程中的重要性。1.注释简介注释是编程语言中用于解释代码的可......
力扣hot100题解（python版69-73题）
69、有效的括号给定一个只包括'('，')'，'{'，'}'，'['，']'的字符串s，判断字符串是否有效。有效字符串需满足：左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。每个右括号都有一个对应的相同类型的左括号。示例1：输入：s="()"输出：true示例2：输入：s="()[......
01Python基础
Python基础按照约定俗成的惯例，应该始终坚持使用4个空格的缩进。Python程序是大小写敏感的，如果写错了大小写，程序会报错。数据类型和变量数据类型整数任意大小的整数，包括负整数，和数学上的写法一致。十六进制，用0x前缀和0-9，a-f表示对于很大的数，100000000，可以写成100_00......
python singledispatch 使用简单说明
singledispatch可以实现类似方法的范型能力，以下是使用的简单说明方法参考代码fromfunctoolsimportsingledispatch@singledispatchdefadd(a,b):returnf"default---{a}-{b}" @add.registerdef_(a:int,b:int)->int:returna+b......
Python-使用openpyxl读取excel内容
1.本篇文章目标将下面的excel中的寄存器表单读入并构建一个字典2.openpyxl的各种基本使用方法2.1打开工作簿wb=openpyxl.load_workbook('test_workbook.xlsx')2.2获取工作簿中工作表名字并得到工作表ws=wb[wb.sheetnames[0]]wb.sheetnames会返回一个列表，列表中......
Python基于微博的舆论分析，舆论情感分析可视化系统（V5.0），附源码
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌......
Python的特性——跟老吕学Python编程
Python的特性——跟老吕学Python编程Python的特性1.Python易学易用2.Python是解释型语言3.Python是交互式的4.Python是一种多范式语言5.Python的标准库6.Python是开源的7.Python是跨平台的8.用于GUI应用程序的Python9.Python的数据库连接10.Python是可扩展的11.Python拥......
Python毕业设计人工智能与大数据专业毕业设计(论文)选题题目
目录前言毕设选题人工智能大数据选题迷茫选题的重要性更多选题指导最后前言 ......