首页 > 其他分享 >使用pandas高效读取筛选csv数据

使用pandas高效读取筛选csv数据

时间:2024-04-24 18:15:06浏览次数:22  
标签:文件 CSV 读取 pandas pd csv Pandas

前言

在数据分析和数据科学领域中,Pandas 是 Python 中最常用的库之一,用于数据处理和分析。本文将介绍如何使用 Pandas 来读取和处理 CSV 格式的数据文件。

什么是 CSV 文件?

CSV(逗号分隔值)文件是一种常见的文本文件格式,用于存储表格数据,其中每行表示一条记录,字段之间用逗号或其他特定分隔符分隔。CSV 文件可以使用任何文本编辑器打开,并且易于阅读和编辑。

环境准备

首先,确保已安装 Pandas 库。可以使用 pip 在命令行中安装 Pandas:

pip install pandas

使用 Pandas 读取 CSV 文件

要使用 Pandas 读取 CSV 文件,可以按照以下步骤进行:

  1. 导入 Pandas 库

在 Python 脚本或 Jupyter Notebook 中导入 Pandas 库:

import pandas as pd
  1. 读取 CSV 文件

使用 pd.read_csv() 函数读取 CSV 文件:

df = pd.read_csv('file.csv')

这里 file.csv 是要读取的 CSV 文件的路径。

参数和选项

pd.read_csv() 函数提供了许多参数和选项,以便读取各种类型的 CSV 文件。以下是一些常用的选项:

  • sep: 指定分隔符,例如逗号 , 或制表符 \t。
  • header: 指定哪一行作为列名(通常是第一行),默认为 0。
  • names: 自定义列名,传入一个列表。
  • index_col: 指定哪一列作为索引列。
  • dtype: 指定每列的数据类型。
  • skiprows: 跳过指定行数的数据。
  • na_values: 将指定值视为空值。

例如:

df = pd.read_csv('file.csv', sep=';', header=0, names=['col1', 'col2', 'col3'])

查看数据

使用 Pandas 读取 CSV 文件后,可以通过以下方法快速查看数据:

  • 查看前几行数据:
df.head()  # 默认显示前5行
  • 查看数据的基本信息:
df.info()

示例

假设我们有一个名为 data.csv 的 CSV 文件,包含以下数据:

Name,Age,City
John,30,New York
Alice,25,San Francisco
Bob,35,Los Angeles

现在,我们使用 Pandas 读取并展示数据:

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 查看前几行数据
print(df.head())

----------
输出结果如下:

    Name  Age           City
0   John   30       New York
1  Alice   25  San Francisco
2    Bob   35    Los Angeles

总结

本文介绍了如何使用 Pandas 库读取 CSV 格式的数据文件。通过简单的几行代码,您可以快速加载 CSV 数据,并开始进行数据分析和处理。Pandas 提供了丰富的功能和选项,以满足各种数据处理需求,是数据科学工作中的重要工具之一。

标签:文件,CSV,读取,pandas,pd,csv,Pandas
From: https://www.cnblogs.com/hogwarts/p/18156043

相关文章

  • python之读取ini文件
    #ini文件[web_config]#前台ldap登陆:login_name=ut251login_pwd=wanghu123读取ini文件内容defread_config(section,key):try:config=configparser.ConfigParser()#类实例化#ini文件路径config_path=os.path.join(product_path,......
  • 【Elasticsearch】在spring环境中 进行es的数据读取
    在Spring环境中进行Elasticsearch(ES)的数据读取,通常会利用SpringDataElasticsearch项目提供的功能。SpringDataElasticsearch提供了高度抽象的Repository接口,允许你以面向对象的方式操作Elasticsearch,而无需直接编写底层的HTTP请求或JSON解析代码。下面是一个简单的示例,演示如......
  • C#使用MiniExcel导入导出数据到Excel/CSV文件【IO操作】
    MiniExcel简介简单、高效避免OOM的.NET处理Excel查、写、填充数据工具。目前主流框架大多需要将数据全载入到内存方便操作,但这会导致内存消耗问题,MiniExcel尝试以Stream角度写底层算法逻辑,能让原本1000多MB占用降低到几MB,避免内存不够情况。 特点:   低内存耗用,避免OOM......
  • Pandas 2.2 中文官方教程和指南(十五)
    原文:pandas.pydata.org/docs/处理文本数据原文:pandas.pydata.org/docs/user_guide/text.html文本数据类型在pandas中有两种存储文本数据的方式:object-dtypeNumPy数组。StringDtype扩展类型。我们建议使用StringDtype来存储文本数据。在pandas1.0之前,ob......
  • Pandas 2.2 中文官方教程和指南(十四)
    原文:pandas.pydata.org/docs/重塑和透视表原文:pandas.pydata.org/docs/user_guide/reshaping.htmlpandas提供了用于操作Series和DataFrame的方法,以改变数据的表示形式,以便进行进一步的数据处理或数据汇总。pivot()和pivot_table():在一个或多个离散类别中对唯一值进行......
  • Pandas 2.2 中文官方教程和指南(五)
    原文:pandas.pydata.org/docs/与SAS的比较译文:pandas.pydata.org/docs/getting_started/comparison/comparison_with_sas.html对于来自SAS的潜在用户,本页面旨在演示如何在pandas中执行不同的SAS操作。如果您是pandas的新手,您可能首先想通过阅读10分钟入门pandas......
  • Pandas 2.2 中文官方教程和指南(四)
    原文:pandas.pydata.org/docs/与SQL比较原文:pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html由于许多潜在的pandas用户对SQL有一定的了解,本页旨在提供使用pandas执行各种SQL操作的一些示例。如果你是pandas的新手,你可能想先阅读......
  • Pandas 2.2 中文官方教程和指南(一)
    原文:pandas.pydata.org/docs/安装原文:pandas.pydata.org/docs/getting_started/install.html安装pandas的最简单方法是作为Anaconda发行版的一部分安装,这是一个用于数据分析和科学计算的跨平台发行版。Conda包管理器是大多数用户推荐的安装方法。还提供了从源代码安装(#i......
  • Pandas 2.2 中文官方教程和指南(十二)
    原文:pandas.pydata.org/docs/MultiIndex/高级索引原文:pandas.pydata.org/docs/user_guide/advanced.html本节涵盖了使用MultiIndex进行索引和其他高级索引功能。查看数据索引和选择以获取一般索引文档。警告在设置操作中返回副本还是引用可能取决于上下文。有时这被......
  • Pandas 2.2 中文官方教程和指南(十六)
    原文:pandas.pydata.org/docs/处理缺失数据原文:pandas.pydata.org/docs/user_guide/missing_data.html被视为“缺失”的值pandas使用不同的标记值来表示缺失值(也称为NA),具体取决于数据类型。numpy.nan适用于NumPy数据类型。使用NumPy数据类型的缺点是原始数据类型将......