首页 > 其他分享 >第1章:初识Pandas

第1章:初识Pandas

时间:2024-11-17 12:43:46浏览次数:3  
标签:df Series 30 DataFrame 初识 pd Pandas

第1章:初识Pandas

本章将带领读者初步了解Pandas库,介绍其基本概念、功能特点和安装方法,同时学习Pandas的核心数据结构:SeriesDataFrame。通过本章的学习,您将为后续章节的深入学习打下坚实的基础。


1.1 什么是Pandas

Pandas是Python中用于数据分析和处理的强大工具库,主要功能包括:

  • 提供高效的多维数据结构SeriesDataFrame
  • 支持丰富的数据操作功能,如清洗、转换、过滤和统计。
  • 能够与多种数据格式无缝交互,如CSV、Excel、JSON、SQL等。
  • 具备良好的性能表现,支持处理大规模数据。

特点概述

  • 简单易用:提供了类似Excel操作的便捷API。
  • 灵活性强:支持多种数据类型和复杂的数据处理逻辑。
  • 高效:基于NumPy实现,性能优越。
1.2 安装与配置
1.2.1 安装Pandas

Pandas可以通过Python的包管理工具pipconda安装:

# 使用pip安装
pip install pandas

# 使用conda安装
conda install pandas
1.2.2 验证安装

安装完成后,可以通过以下命令验证Pandas的版本:

import pandas as pd
print(pd.__version__)
1.2.3 常用依赖库

Pandas的部分功能依赖其他第三方库,如:

  • NumPy:数值计算基础库。
  • Matplotlib:数据可视化支持。
  • openpyxlxlrd:Excel文件操作支持。

确保这些库安装完成以获得完整功能支持。

1.3 核心数据结构

Pandas的核心数据结构是SeriesDataFrame,它们分别代表一维和二维数据。以下详细介绍这两种结构的特点和用法。


1.3.1 Series:一维数据结构

定义
Series是Pandas中表示一维数据的结构,类似于Python的列表或字典,但具有更强大的功能。
特点

  • 每个数据点都带有一个索引。
  • 支持多种数据类型。

创建一个Series

import pandas as pd

# 从列表创建
s1 = pd.Series([10, 20, 30, 40])
print(s1)

# 从字典创建
s2 = pd.Series({'a': 10, 'b': 20, 'c': 30})
print(s2)

# 指定索引
s3 = pd.Series([100, 200, 300], index=['x', 'y', 'z'])
print(s3)

输出

0    10
1    20
2    30
3    40
dtype: int64

a    10
b    20
c    30
dtype: int64

x    100
y    200
z    300
dtype: int64

操作与方法

  • 访问数据:s1[0]s3['x']
  • 统计信息:s1.sum()s1.mean()
  • 类型转换:s1.astype(float)

1.3.2 DataFrame:二维数据结构

定义
DataFrame是Pandas中表示二维数据的结构,可以理解为“电子表格”或“SQL表”的形式。

特点

  • 行索引(index)和列名(columns)定义。
  • 支持多种数据源输入。

创建一个DataFrame

# 从字典创建
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)

# 从嵌套列表创建
data = [['Alice', 25, 'New York'], ['Bob', 30, 'Los Angeles'], ['Charlie', 35, 'Chicago']]
df2 = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
print(df2)

输出

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

操作与方法

  • 访问数据:df['Name']df.loc[0]df.iloc[0, 1]
  • 增加列:df['Salary'] = [50000, 60000, 70000]
  • 删除行/列:df.drop('Age', axis=1)

1.4 总结与展望

本章主要介绍了Pandas的基本概念、安装方法以及核心数据结构SeriesDataFrame。这些内容是学习Pandas的基础。通过理解这些内容,您已经可以尝试一些简单的数据操作。下一章将带您学习如何操作和管理数据,为数据分析工作打下坚实的基础。

标签:df,Series,30,DataFrame,初识,pd,Pandas
From: https://blog.csdn.net/imdeity/article/details/143830659

相关文章

  • 初识Linux · 信号保存
    目录前言:Blockpendinghandler表信号保存前言:前文我们已经介绍了信号产生,在时间的学习线上,信号的学习分为预备知识,信号产生,信号保存,信号处理,本文我们学习信号保存,在前言部分,我们介绍几个信号保存中的概念。信号递达:实际执行信号的处理动作。信号未决:信号从产生到递达......
  • 基于numpy、pandas、matplotlib的数据分析项目详解(超详细版)
    一、引言在之前的文章中,我们介绍了NumPy、Pandas和Matplotlib这三款强大的数据分析工具。今天,我们将通过一个实际项目来帮助大家更好地掌握这些工具。项目名称为《餐厅订单数据分析》。在这个项目中,我们将分析餐厅的订单数据,以获取有关菜品销售、订单趋势和顾客偏好的有价......
  • 初识 HarmonyOS Next 的分布式管理:设备发现与认证
    初识HarmonyOSNext的分布式管理:设备发现与认证本文旨在深入探讨华为鸿蒙HarmonyOSNext系统(截止目前API12)的技术细节,基于实际开发实践进行总结。主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。本文为原创内容,任何形式的转载必须注明出处及......
  • 初识JVM,JVM自动内存管理
    文章目录一、前言1.1计算机==>操作系统==>JVM1.1.1虚拟与实体(对上图的结构层次分析)1.1.2Java程序执行(对上图的箭头流程分析)二、JVM内存空间与参数设置2.1运行时数据区2.2关于StackOverflowError和OutOfMemoryError2.2.1StackOverflowError2.2.2OutOfMemoryErr......
  • 初识算法 · 位运算(2)
    目录前言:判定字符是否唯一丢失的数字比特位计数只出现一次的数字III前言:​本文的主题是位运算,通过四道题目讲解,一道是判断字符是否唯一,一道是只出现一次的数字III,一道是比特位计数,一道是丢失的数字。链接分别为:338.比特位计数-力扣(LeetCode) 面试题01.01.判定字......
  • vite 虚拟模块初识
    介绍:Vite中的虚拟模块Vite是一个现代化的构建工具,旨在通过利用浏览器原生ES模块的可用性以及使用编译为原生语言编写的JavaScript工具来解决一些问题。用途:1.自动生成路由配置:在一些前端框架(如Vue和React)中,虚拟模块可以用来动态生成路由配置。通常,我们需要手动维护路......
  • Java初识(一)
    运行机制:语言处理程序主要分为汇编程序,编译程序,解释程序效率(编译>解释)灵活性(编译<解释)可移植性(编译<解释)在解释方式下,翻译源程序时不生成独立的目标程序,而编译器则将源程序翻译成独立保存的目标程序Java解释型面向对象编程语言基于Java开发构建工具:Ant,Maven,Jekins应用服务......
  • 初识C语言2
    选择语句如果你好好学习,校招时拿到一个好offer,走上人生巅峰。如果你不学习,毕业等于失业,回家卖红薯。这就是选择!循环语句有些事必须一直做,比如写csdn,比如大家每天都要吃饭、喝水三种循环语句:while语句,for语句,do-while语句(我后面写csdn会详细讲)函数函数的特点就是简......
  • 使用NumPy、Pandas和Matplotlib进行数据处理和可视化
    前言在数据科学和数据分析领域,NumPy、Pandas和Matplotlib是最常用的数据处理和可视化库。NumPy提供了高效的数组操作功能,Pandas则在NumPy的基础上增加了丰富的数据处理工具,而Matplotlib则是最流行的Python绘图库之一。本文将详细介绍如何使用这三个库进行数据处理和可视化。......
  • JS初识_语法
    1.什么是JavaScript(简称JS)首先要了解前端以及Harmony生态中网站的组成部分(网站的三层结构)HTML表示了你的页面内有什么,组成页面的骨架(结构层)CSS表示了你的页面中每一个内容是什么样子的(样式层)JavaScript(简称js)表示了你的页面中每一个内容如何发生变化,有什么......