使用pandas高效读取筛选csv数据

时间：2024-04-24 18:15:06浏览次数：22

标签：文件 CSV 读取 pandas pd csv Pandas

前言

在数据分析和数据科学领域中，Pandas 是 Python 中最常用的库之一，用于数据处理和分析。本文将介绍如何使用 Pandas 来读取和处理 CSV 格式的数据文件。

什么是 CSV 文件？

CSV（逗号分隔值）文件是一种常见的文本文件格式，用于存储表格数据，其中每行表示一条记录，字段之间用逗号或其他特定分隔符分隔。CSV 文件可以使用任何文本编辑器打开，并且易于阅读和编辑。

环境准备

首先，确保已安装 Pandas 库。可以使用 pip 在命令行中安装 Pandas：

pip install pandas

使用 Pandas 读取 CSV 文件

要使用 Pandas 读取 CSV 文件，可以按照以下步骤进行：

导入 Pandas 库

在 Python 脚本或 Jupyter Notebook 中导入 Pandas 库：

import pandas as pd

读取 CSV 文件

使用 pd.read_csv() 函数读取 CSV 文件：

df = pd.read_csv('file.csv')

这里 file.csv 是要读取的 CSV 文件的路径。

参数和选项

pd.read_csv() 函数提供了许多参数和选项，以便读取各种类型的 CSV 文件。以下是一些常用的选项：

sep: 指定分隔符，例如逗号 , 或制表符 \t。
header: 指定哪一行作为列名（通常是第一行），默认为 0。
names: 自定义列名，传入一个列表。
index_col: 指定哪一列作为索引列。
dtype: 指定每列的数据类型。
skiprows: 跳过指定行数的数据。
na_values: 将指定值视为空值。

例如：

df = pd.read_csv('file.csv', sep=';', header=0, names=['col1', 'col2', 'col3'])

查看数据

使用 Pandas 读取 CSV 文件后，可以通过以下方法快速查看数据：

查看前几行数据：

df.head()  # 默认显示前5行

查看数据的基本信息：

df.info()

示例

假设我们有一个名为 data.csv 的 CSV 文件，包含以下数据：

Name,Age,City
John,30,New York
Alice,25,San Francisco
Bob,35,Los Angeles

现在，我们使用 Pandas 读取并展示数据：

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 查看前几行数据
print(df.head())

----------
输出结果如下：

    Name  Age           City
0   John   30       New York
1  Alice   25  San Francisco
2    Bob   35    Los Angeles

总结

本文介绍了如何使用 Pandas 库读取 CSV 格式的数据文件。通过简单的几行代码，您可以快速加载 CSV 数据，并开始进行数据分析和处理。Pandas 提供了丰富的功能和选项，以满足各种数据处理需求，是数据科学工作中的重要工具之一。

标签：文件,CSV,读取,pandas,pd,csv,Pandas
From： https://www.cnblogs.com/hogwarts/p/18156043

python之读取ini文件
#ini文件[web_config]#前台ldap登陆：login_name=ut251login_pwd=wanghu123读取ini文件内容defread_config(section,key):try:config=configparser.ConfigParser()#类实例化#ini文件路径config_path=os.path.join(product_path,......
【Elasticsearch】在spring环境中进行es的数据读取
在Spring环境中进行Elasticsearch（ES）的数据读取，通常会利用SpringDataElasticsearch项目提供的功能。SpringDataElasticsearch提供了高度抽象的Repository接口，允许你以面向对象的方式操作Elasticsearch，而无需直接编写底层的HTTP请求或JSON解析代码。下面是一个简单的示例，演示如......
C#使用MiniExcel导入导出数据到Excel/CSV文件【IO操作】
MiniExcel简介简单、高效避免OOM的.NET处理Excel查、写、填充数据工具。目前主流框架大多需要将数据全载入到内存方便操作，但这会导致内存消耗问题，MiniExcel尝试以Stream角度写底层算法逻辑，能让原本1000多MB占用降低到几MB，避免内存不够情况。特点：低内存耗用，避免OOM......
Pandas 2.2 中文官方教程和指南（十五）
原文：pandas.pydata.org/docs/处理文本数据原文：pandas.pydata.org/docs/user_guide/text.html文本数据类型在pandas中有两种存储文本数据的方式：object-dtypeNumPy数组。StringDtype扩展类型。我们建议使用StringDtype来存储文本数据。在pandas1.0之前，ob......
Pandas 2.2 中文官方教程和指南（十四）
原文：pandas.pydata.org/docs/重塑和透视表原文：pandas.pydata.org/docs/user_guide/reshaping.htmlpandas提供了用于操作Series和DataFrame的方法，以改变数据的表示形式，以便进行进一步的数据处理或数据汇总。pivot()和pivot_table()：在一个或多个离散类别中对唯一值进行......
Pandas 2.2 中文官方教程和指南（五）
原文：pandas.pydata.org/docs/与SAS的比较译文：pandas.pydata.org/docs/getting_started/comparison/comparison_with_sas.html对于来自SAS的潜在用户，本页面旨在演示如何在pandas中执行不同的SAS操作。如果您是pandas的新手，您可能首先想通过阅读10分钟入门pandas......
Pandas 2.2 中文官方教程和指南（四）
原文：pandas.pydata.org/docs/与SQL比较原文：pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html由于许多潜在的pandas用户对SQL有一定的了解，本页旨在提供使用pandas执行各种SQL操作的一些示例。如果你是pandas的新手，你可能想先阅读......
Pandas 2.2 中文官方教程和指南（一）
原文：pandas.pydata.org/docs/安装原文：pandas.pydata.org/docs/getting_started/install.html安装pandas的最简单方法是作为Anaconda发行版的一部分安装，这是一个用于数据分析和科学计算的跨平台发行版。Conda包管理器是大多数用户推荐的安装方法。还提供了从源代码安装（#i......
Pandas 2.2 中文官方教程和指南（十二）
原文：pandas.pydata.org/docs/MultiIndex/高级索引原文：pandas.pydata.org/docs/user_guide/advanced.html本节涵盖了使用MultiIndex进行索引和其他高级索引功能。查看数据索引和选择以获取一般索引文档。警告在设置操作中返回副本还是引用可能取决于上下文。有时这被......
Pandas 2.2 中文官方教程和指南（十六）
原文：pandas.pydata.org/docs/处理缺失数据原文：pandas.pydata.org/docs/user_guide/missing_data.html被视为“缺失”的值pandas使用不同的标记值来表示缺失值（也称为NA），具体取决于数据类型。numpy.nan适用于NumPy数据类型。使用NumPy数据类型的缺点是原始数据类型将......