Pandas 读取带空格的文件名

时间：2024-07-25 15:12:52浏览次数：15

我有一个由空格分隔的 3 列文本文件，我喜欢将其放入数据框中。我使用以下构造来执行此操作：

df = pd.read_csv(my_file, sep=' ', skiprows=4, names=('cola','colb','filename') )

效果很好，直到我遇到其中包含空格的文件名。

我在 pd.read_csv 中找不到选项来限制列数并处理最后一个位为 1 列。我如何将这样的文件放入数据框中？

PS 我知道该文件的格式很愚蠢，但这超出了我的控制范围

可以使用 delim_whitespace=True 将空格视为分隔符，并使用 quotechar='"' 将文件名用引号引起来。

以下是如何操作的：

df = pd.read_csv(my_file, delim_whitespace=True, skiprows=4, names=('cola','colb','filename'), quotechar='"')

解释：

delim_whitespace=True : 这告诉 Pandas 使用任何数量的空格作为分隔符，而不仅仅是单个空格。
quotechar='"' : 这告诉 Pandas 将双引号内的任何内容视为单个列，即使其中包含空格。

示例：

如果的文件 my_file.txt 看起来像这样：

# 这是一些注释行
# ...
1 2 filename without spaces.txt
3 4 "filename with spaces.txt"

那么代码将会创建以下数据框：

   cola  colb                    filename
0     1     2  filename without spaces.txt
1     3     4     filename with spaces.txt

注意:

确保文件名中的空格确实用双引号引起来。如果并非所有文件名都被引起来，则可能需要先预处理文件。
如果的文件名中包含双引号字符，则需要选择其他 quotechar 或使用其他方法来处理这些情况。

标签：python,pandas,dataframe,import
From： 65128067

在 Python 中动态定义文字字符串排列的并集
我有一个字符串列表：strings=['a','b','c']我想声明列表中所有可能的有序对的Union类型。硬编码，这看起来像：Literal我如何动态定义CustomType=Literal['ab','ac','aa','ba','bb','bc�......
关于 Python 中装饰器缓存的困惑
我正在使用Python装饰器来实现函数的缓存。我了解缓存结果以提高性能的基本概念，但我正在努力解决如何处理不同的函数参数并确保底层数据更改时缓存更新。我已经实现了一个基本装饰器，它将函数结果存储在基于参数的字典。但是，此方法无法处理函数参数可能具有复杂结构（如嵌套列......
Python：__add__ 和 +，浮点数和整数的不同行为
当将整数值添加到浮点值时，我意识到如果在浮点上调用该方法可以正常工作，例如：__add__但如果在整数上调用则不行：>>>n=2.0>>>m=1>>>n.__add__(m)3.0起初我认为|||只是对>>>m.__add__(n)NotImplemented和__add__类型的实现方式不同（例如f......
python中scrapy爬取数据get()与getall()区别
在使用scrapy进行爬取数据的时候，有些时候需要爬取的是一段文本，或者一个div里面有很多内容，这时候我们就要使用到get()或者getall()来获取数据： get():是获取的满足条件的第一个数据。getall():是获取的满足条件的所有数据。scrapyget()getall()原理在Scrapy中，get(......
python—NumPy基础（3）
文章目录算术函数算术函数的使用算术函数中out参数的使用mod()函数的使用统计函数power()函数的使用median()函数的使用mean()函数的使用函数的使用其他常用函数tile()和repeat()函数的使用roll()函数的使用resize()函数的使用replace()和put()函数的使savetxt()和lo......
Python爬虫：代理ip电商数据实战
引言：数据访问管理引发的烦恼作为一名Python博主，爬虫技能对于获取和分析数据至关重要，经常爬一下，有益身心健康嘛。爬虫技术对很多人来说，不仅仅是一种工具，更像是一种艺术，帮助我们从互联网中，捕捉到有价值的信息。我经常就会用爬虫来爬取一些所需的数据，用来进行数据分析和模型训......
python科学计算：加速库numba —— 安装和试用
安装（anaconda环境下）condainstallnumbaDemo代码：fromnumbaimportjitfromnumpyimportarangeimportnumpyimporttime@jitdefsum2d(arr):M,N=arr.shaperesult=0.0foriinrange(M):forjinrange(N):result+=a......
Python - Selenium抓取淘宝直播间评论（可使用无头模式）
Python-Selenium抓取淘宝直播间评论（可使用无头模式）下面介绍如何使用python中的selenium简单抓取淘宝直播间实时评论。友情提醒，仅供学习交流使用，请勿用于非法用途！一、创建python项目1.在目录下新建main.py和venv虚拟环境：创建虚拟环境：python-mvenvvenv激活虚拟环......
需要帮助来提取此 XML 节点 - Python 中的 Excel 连接字符串
我有一个Python程序，打开Excel(XLSX)文件，并尝试查找<connection>节点。这是connections.xml文件中的完整XML。<?xmlversion="1.0"encoding="UTF-8"standalone="yes"?><connectionsxmlns="http://schemas.op......
【python】Python中采集Prometheus数据，进行数据分析和可视化展示
✨✨欢迎大家来到景天科技苑✨✨......

Pandas 读取带空格的文件名

相关文章

赞助商

阅读排行