首页 > 其他分享 >Pandas read_csv 参数详解

Pandas read_csv 参数详解

时间:2024-04-25 18:13:16浏览次数:28  
标签:10 read pandas pd print csv Pandas

前言

在使用 Pandas 进行数据分析和处理时,read_csv 是一个非常常用的函数,用于从 CSV 文件中读取数据并将其转换成 DataFrame 对象。read_csv 函数具有多个参数,可以根据不同的需求进行灵活的配置。本文将详细介绍 read_csv 函数的各个参数及其用法,帮助大家更好地理解和利用这一功能。

常用参数概述

pandas的 read_csv 函数用于读取CSV文件。以下是一些常用参数:

  • filepath_or_buffer: 要读取的文件路径或对象。
  • sep: 字段分隔符,默认为,。
  • delimiter: 字段分隔符,sep的别名。
  • header: 用作列名的行号,默认为0(第一行),如果没有列名则设为None。
  • names: 列名列表,用于结果DataFrame。
  • index_col: 用作索引的列编号或列名。
  • usecols: 返回的列,可以是列名的列表或由列索引组成的列表。
  • dtype: 字典或列表,指定某些列的数据类型。
  • skiprows: 需要忽略的行数(从文件开头算起),或需要跳过的行号列表。
  • nrows: 需要读取的行数(从文件开头算起)。
  • skipfooter: 文件尾部需要忽略的行数。
  • encoding: 文件编码(如'utf-8','latin-1'等)。
  • parse_dates: 将某些列解析为日期。
  • infer_datetime_format: 如果 True 且 parse_dates 未指定,那么将尝试解析日期。
  • iterator: 如果 True,返回 TextFileReader 对象,用于逐块读取文件。
  • chunksize: 每个块的行数,用于逐块读取文件。
  • compression: 压缩格式,例如 'gzip' 或 'xz'

filepath_or_buffer要读取的文件路径或对象

filepath_or_buffer: FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]可以接收3种类型,文件路径,读取文件的bytes, 读取文件的str。

  • 可以接受任何有效的字符串路径。该字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3、gs 和 file。对于文件 URL,需要主机。本地文件可以是:file://localhost/path/to/table.csv
  • 想传入一个路径对象,pandas 接受任何 Path
  • 类文件对象是指具有 read() 方法的对象,例如文件句柄(例如通过内置 open 函数)或 StringIO

示例如下:


# 读取字符串路径
import pandas
from pathlib import Path

# 1.相对路径,或文件绝对路径
df1 = pandas.read_csv('data.csv')
print(df1)


# 文件路径对象Path
file_path = Path(__file__).parent.joinpath('data.csv')
df2 = pandas.read_csv(file_path)
print(df2)

# 读取url地址
df3 = pandas.read_csv('http://127.0.0.1:8000/static/data.csv')
print(df3)


# 读取文件对象

with open('data.csv', encoding='utf8') as fp:
    df4 = pandas.read_csv(fp)
    print(df4)

sep: 字段分隔符,默认为,

  • sep 字段分隔符,默认为,
  • delimiter(同sep,分隔符)

示例如下:

df1 = pandas.read_csv('data.csv', sep=',')
print(df1)

df2 = pandas.read_csv('data.csv', delimiter=',')
print(df2)

header 用作列名的行号

header: 指定哪一行作为列名,默认为0,即第一行,如果没有列名则设为None。
如下数据,没有header

张三,男,22,123@qq.com
李四,男,23,222@qq.com
王五,女,24,233@qq.com
张六,男,22,123@qq.com


# 读取示例
df6 = pandas.read_csv('data2.csv', header=None)
print(df6)

names自定义列名

names自定义列名,如果header=None,则可以使用该参数。

df6 = pandas.read_csv(
    'data2.csv',
    header=None,
    names=['姓名', '性别', '年龄', '邮箱'])
print(df6)

index_col 用作行索引的列编号或列名

index_col参数在使用pandas的read_csv函数时用于指定哪一列作为DataFrame的索引。
如果设置为None(默认值),CSV文件中的行索引将用作DataFrame的索引。如果设置为某个列的位置(整数)或列名(字符串),则该列将被用作DataFrame的索引。

import pandas as pd

# 我们想要将'`email`'列作为DataFrame的索引

df8 = pd.read_csv('data.csv', index_col='email')
print(df8)

# 或者,如果我们知道'email'列在第4列的位置,也可以这样指定
df9 = pd.read_csv('data.csv', index_col=3)
print(df9)

usecols 读取指定的列

usecols 读取指定的列,可以是列名或列编号。

import pandas as pd

# 1.指定列的编号
df10 = pd.read_csv('data.csv', usecols=[0, 1])
print(df10)

# 2.指定列的名称
df11 = pd.read_csv('data.csv', usecols=['name', 'sex'])
print(df11)

skiprows 、nrows 和skipfooter

  • skiprows: 需要忽略的行数(从文件开头算起),或需要跳过的行号列表。
  • nrows: 需要读取的行数(从文件开头算起)
  • skipfooter: 文件尾部需要忽略的行数。

示例如下:

# skiprpws忽略的行数
import pandas as pd

# 跳过前面2行
df15 = pd.read_csv('data.csv', skiprows=2)
print(df15)

# nrows 需要读取的行数

import pandas as pd

# 读取前面2行
df15 = pd.read_csv('data.csv', nrows=2)
print(df15)


# 文件尾部需要忽略的行数

import pandas as pd

# 忽略文件尾部3行
df15 = pd.read_csv('data.csv', skipfooter=3)
print(df15)

parse_dates 将某些列解析为日期

示例如下:

name,time,date
Bob,21:33:30,2019-10-10
Jerry,21:30:15,2019-10-10
Tom,21:25:30,2019-10-10
Vince,21:20:10,2019-10-10
Hank,21:40:15,2019-10-10


import pandas as pd

# 1.指定列的编号
df16 = pd.read_csv('data.csv')
print(df16)


-------------
# 结果如下:
    name      time        date
0    Bob  21:33:30  2019-10-10
1  Jerry  21:30:15  2019-10-10
2    Tom  21:25:30  2019-10-10
3  Vince  21:20:10  2019-10-10
4   Hank  21:40:15  2019-10-10

默认读取的date日期是字符串类型,使用parse_dates 参数转成datetime类型。

import pandas as pd

df16 = pd.read_csv('ddd.csv')
print(df16.to_dict())   # 'date': {0: '2019-10-10', 1: '2019-10-10',


df17 = pd.read_csv('ddd.csv', parse_dates=['date'])
print(df17.to_dict())  # 'date': {0: Timestamp('2019-10-10 00:00:00')

总结

通过本文的介绍,大家应该对 Pandas 中 read_csv 函数的参数有了更全面的了解。在实际应用中,根据数据的特点和处理需求,灵活使用 read_csv 的各种参数,可以更轻松、高效地进行数据读取和预处理,为数据分析和建模提供更好的基础。

标签:10,read,pandas,pd,print,csv,Pandas
From: https://www.cnblogs.com/hogwarts/p/18158298

相关文章

  • 使用pandas高效读取筛选csv数据
    前言在数据分析和数据科学领域中,Pandas是Python中最常用的库之一,用于数据处理和分析。本文将介绍如何使用Pandas来读取和处理CSV格式的数据文件。什么是CSV文件?CSV(逗号分隔值)文件是一种常见的文本文件格式,用于存储表格数据,其中每行表示一条记录,字段之间用逗号或其他......
  • C#使用MiniExcel导入导出数据到Excel/CSV文件【IO操作】
    MiniExcel简介简单、高效避免OOM的.NET处理Excel查、写、填充数据工具。目前主流框架大多需要将数据全载入到内存方便操作,但这会导致内存消耗问题,MiniExcel尝试以Stream角度写底层算法逻辑,能让原本1000多MB占用降低到几MB,避免内存不够情况。 特点:   低内存耗用,避免OOM......
  • Pandas 2.2 中文官方教程和指南(十五)
    原文:pandas.pydata.org/docs/处理文本数据原文:pandas.pydata.org/docs/user_guide/text.html文本数据类型在pandas中有两种存储文本数据的方式:object-dtypeNumPy数组。StringDtype扩展类型。我们建议使用StringDtype来存储文本数据。在pandas1.0之前,ob......
  • Pandas 2.2 中文官方教程和指南(十四)
    原文:pandas.pydata.org/docs/重塑和透视表原文:pandas.pydata.org/docs/user_guide/reshaping.htmlpandas提供了用于操作Series和DataFrame的方法,以改变数据的表示形式,以便进行进一步的数据处理或数据汇总。pivot()和pivot_table():在一个或多个离散类别中对唯一值进行......
  • Pandas 2.2 中文官方教程和指南(五)
    原文:pandas.pydata.org/docs/与SAS的比较译文:pandas.pydata.org/docs/getting_started/comparison/comparison_with_sas.html对于来自SAS的潜在用户,本页面旨在演示如何在pandas中执行不同的SAS操作。如果您是pandas的新手,您可能首先想通过阅读10分钟入门pandas......
  • Pandas 2.2 中文官方教程和指南(四)
    原文:pandas.pydata.org/docs/与SQL比较原文:pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html由于许多潜在的pandas用户对SQL有一定的了解,本页旨在提供使用pandas执行各种SQL操作的一些示例。如果你是pandas的新手,你可能想先阅读......
  • Pandas 2.2 中文官方教程和指南(一)
    原文:pandas.pydata.org/docs/安装原文:pandas.pydata.org/docs/getting_started/install.html安装pandas的最简单方法是作为Anaconda发行版的一部分安装,这是一个用于数据分析和科学计算的跨平台发行版。Conda包管理器是大多数用户推荐的安装方法。还提供了从源代码安装(#i......
  • Pandas 2.2 中文官方教程和指南(十二)
    原文:pandas.pydata.org/docs/MultiIndex/高级索引原文:pandas.pydata.org/docs/user_guide/advanced.html本节涵盖了使用MultiIndex进行索引和其他高级索引功能。查看数据索引和选择以获取一般索引文档。警告在设置操作中返回副本还是引用可能取决于上下文。有时这被......
  • Pandas 2.2 中文官方教程和指南(十六)
    原文:pandas.pydata.org/docs/处理缺失数据原文:pandas.pydata.org/docs/user_guide/missing_data.html被视为“缺失”的值pandas使用不同的标记值来表示缺失值(也称为NA),具体取决于数据类型。numpy.nan适用于NumPy数据类型。使用NumPy数据类型的缺点是原始数据类型将......
  • Pandas 2.2 中文官方教程和指南(十三)
    原文:pandas.pydata.org/docs/写时复制(CoW)原文:pandas.pydata.org/docs/user_guide/copy_on_write.html注意写时复制将成为pandas3.0的默认设置。我们建议现在就启用它以从所有改进中受益。写时复制首次引入于版本1.5.0。从版本2.0开始,大部分通过CoW可能实现和支持......