Pandas 和numpy 入门详细笔记

时间：2024-07-22 20:57:21浏览次数：10

标签：file 入门 df numpy 样本导入 pd 数据 Pandas

1. 安装和导入

1.1 安装

pip install pandas
pip install numpy

1.2 导入

import pandas as pd
import numpy as np

2. 数据结构

2.1 Series（系列）

定义：一维标签化数组，可以保存任何数据类型（整数、浮点数、字符串等）。
创建 Series：

# 从列表创建
s = pd.Series([10, 20, 30, 40])

# 从字典创建
s = pd.Series({'a': 10, 'b': 20, 'c': 30})

# 从标量值创建
s = pd.Series(5, index=['a', 'b', 'c'])

访问数据：

# 通过标签访问
s['a']

# 通过位置访问
s[0]

2.2 DataFrame（数据框）

定义：二维标签化数据结构，类似于一个表格，由行和列组成。

创建 DataFrame：

# 从字典创建
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 从列表创建
data = [[1, 4], [2, 5], [3, 6]]
df = pd.DataFrame(data, columns=['A', 'B'])

访问数据：

# 选择列
df['A']

# 选择多列
df[['A', 'B']]

# 选择行
df.loc[0]  # 按标签
df.iloc[0]  # 按位置

# 条件选择
df[df['A'] > 1]

3. 数据查看

3.1 查看数据

# 查看前几行
df.head(n)  # 前n行

# 查看后几行
df.tail(n)  # 后n行

# 查看数据概况
df.info()

# 查看数据的统计信息
df.describe()
'''
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
'''
test['xx'].describe()
#统计xx的对应数据

4. 数据操作

4.1 增加和删除列

# 增加列
df['C'] = [7, 8, 9]

# 删除列
df.drop('C', axis=1, inplace=True)  # inplace=True 表示在原地删除

4.2 修改数据

# 修改特定值
df.loc[0, 'A'] = 10

5. 数据清洗

5.1 处理缺失值

# 查看缺失值
df.isna().sum()

# 删除缺失值
df.dropna()  # 删除有缺失值的行
df.dropna(axis=1)  # 删除有缺失值的列

# 填充缺失值
df.fillna(value=0)  # 用0填充缺失值
df.fillna(method='ffill')  # 用前一个值填充
df.fillna(method='bfill')  # 用后一个值填充

6. 数据排序

# 按列排序
df.sort_values(by='A', ascending=False/true)

# 按行排序
df.sort_index(ascending=False/true)

7. 数据导入与导出

7.1 导入数据

# 从CSV文件导入
df = pd.read_csv('file.csv')

# 从Excel文件导入
df = pd.read_excel('file.xlsx')

# 从JSON文件导入
df = pd.read_json('file.json')

7.2 导出数据

# 导出到CSV文件
df.to_csv('file.csv', index=False)

# 导出到Excel文件
df.to_excel('file.xlsx', index=False)

# 导出到JSON文件
df.to_json('file.json')

部分还未完善，待日后补充

标签：file,入门,df,numpy,样本,导入,pd,数据,Pandas
From： https://blog.csdn.net/2301_79809688/article/details/140605055

EXCEL初级入门--（第四章函数进阶学习）-中
文章目录(十四)MatchVlookup应用对比Match(十五)IndexMatch多条件应用案例Index(十六)IndexMatch数组嵌套IndexMatch(十七)唯一Subtotal唯一的筛选函数Subtotal(十八)Sumproduct函数应用Sumproduct(十九)条件求和函数1、sum2、sumif3、sumifs(二十)条件计......
2024护网行动可能要用的一些工具（非常详细）零基础入门到精通，收藏这一篇就够了
前言通用工具工具类型工具地址内网扫描https://github.com/shadow1ng/fscan哥斯拉Webshell管理https://github.com/BeichenDream/GodzillaARL资产侦察灯塔https://github.com/TophantTechnology/ARLaliyun-accesskey-Toolshttps://github.com/mrknow001/aliyun-access......
网络安全工程师需要学什么？零基础怎么从入门到精通，看这一篇就够了
前言我发现关于网络安全的学习路线网上有非常多看似高大上却无任何参考意义的回答。大多数的路线都是给了一个大概的框架，告诉你那些东西要考，以及建议了一个学习顺序。但是这对于小白来说是远远不够的，有的可能还会有误导性！比如说很多的学习路线会说要从语言开始学起，于是很......
P6475 [NOI Online #2 入门组] 建设城市
P6475[NOIOnline#2入门组]建设城市传送门分类讨论：设\(f(x,y)\)为\(C^{j-1}_{i+j-1}\)\(x,y\)在同一旁把\(x,y\)之间的看成一个高楼公式\(f(n,m)\timesf(n+x-y,m)\)\(x,y\)在异侧枚举\(x,y\)高楼的高度\(h\)\(\displaystyle\sum^{n}_{i=1}f(x-1,i)*f(n-x,m-i......
（三）人工智能之Python入门
目录（一）环境准备1.1、安装Python1.2、pycharm安装（二）python基础知识2.1、变量和数据类型2.2、列表2.3、字典2.4、元组2.5、循环和条件语句2.6、函数（三）python入门实例 3.1、线性回归任务3.2、线性回归的基本概念1、自变量和因变量：2、线性关系：3、目标4、线性回......
Pandas入门
Pandas入门1.读取和写入数据①read_csv():从CSV文件读取数据到DataFrame。 importpandasaspd读取文件名为"data.csv'的数据df=pd.read_csv('data.csv') ②read_excel():从Excel文件读取数据。假设有一个文件名为1data.xlsxdf=pd.read_excel('data.xlsx') ......
张高兴的 MicroPython 入门指南：（三）使用串口通信
目录什么是串口使用方法使用板载串口相互通信硬件需求电路代码使用板载的USB串口参考什么是串口串口是串行接口的简称，这是一个非常大的概念，在嵌入式中串口通常指UART（UniversalAsynchronousReceiver/Transmitter，通用异步收发器）。使用串口进行的通信叫做串行通信，与之相对的一......
并行化 numpy.sort
我需要对长度为1e8-1e9的uint64数组进行排序，这是我当前项目中的性能瓶颈之一。我最近刚刚更新了numpyv2.0版本，其中排序算法得到了显着优化。在我的硬件上测试它，它比numpyv1.26版本快大约5倍。但目前numpy的排序算法即使使用SIMD，也无法利用多核CPU。我尝试将其并行......
C语言初学者入门指南
C语言初学者入门指南在编程的世界里，C语言被誉为“编程语言之母”，它是许多现代编程语言（如C++、Java、Python等）的基石。C语言以其高效、灵活和接近硬件的特性，在操作系统、嵌入式系统、游戏开发等多个领域发挥着重要作用。对于初学者而言，掌握C语言不仅能帮助你理......
入门到精通rsync和inotify
rsync作用：实现文件的备份备份位置可以是当前主机，也可以是远程主机备份过程可以是完全备份，也可以是增量备份功能：1）类似于cp的复制功能将本地主机的一个文件复制到另一个位置下2）将本地主机的文件推送到远程主机：也可以是从远程主机拉取文件到本地使用模式：shell模......