如何跳转到一个巨大的文本文件中的特定行？

时间：2024-07-29 08:17:46浏览次数：5

标签：python text-files

下面的代码是否有任何替代方案：

startFromLine = 141978 # or whatever line I need to jump to

urlsfile = open(filename, "rb", 0)

linesCounter = 1

for line in urlsfile:
    if linesCounter > startFromLine:
        DoSomethingWithThisLine(line)

    linesCounter += 1

如果我正在处理一个巨大的文本文件 (~15MB) ，其行长度未知但不同，并且需要跳转到我事先知道的特定行？当我知道我至少可以忽略文件的前半部分时，我对逐一处理它们感到很糟糕。寻找更优雅的解决方案（如果有）。

对于大文件，逐行迭代会很慢。可以使用以下方法更有效地跳转到 Python 中的大型文本文件中的特定行：

1. 使用 linecache 模块

linecache 模块允许通过行号获取特定行，而无需读取整个文件。这对于读取文件中的随机行非常有效。

import linecache

startFromLine = 141978

line = linecache.getline(filename, startFromLine)

if line:  # 处理空行的可能性
    DoSomethingWithThisLine(line)

2. 使用文件指针操作和 seek() （对于已知行分隔符）

如果知道行分隔符（例如， \n 用于换行）并且行长度变化很大，可以通过估计每个字符的平均字节大小来优化文件指针操作：

import os

startFromLine = 141978
estimated_line_size = 100  # 调整此估计值

with open(filename, "rb") as urlsfile:
    # 粗略估计要跳过的字节数
    urlsfile.seek((startFromLine - 1) * estimated_line_size)  

    # 读取并丢弃可能不完整的行
    urlsfile.readline()  

    # 从下一行开始处理
    for line in urlsfile:
        DoSomethingWithThisLine(line.decode("utf-8"))

重要注意事项：

行分隔符： 这些方法假定默认行分隔符（ \n ）。如果的文件使用不同的分隔符，请相应地调整代码。
编码： 将 encoding 参数调整为文件使用的实际编码（如果适用）。
性能： linecache 更适合随机行访问，而文件指针操作更适合顺序读取。

通过使用这些方法，可以避免对大型文本文件进行不必要的迭代，从而显着提高代码的性能。选择最适合特定需求和文件特征的方法。

标签：python,text-files
From： 620367

如何用Python制作Android服务？
我想构建一个简单的Android应用程序，例如PushOver应用程序，它具有TCP服务器并接收其记录的文本消息，然后将其作为推送通知发送。这部分已经完成并且工作正常。但即使GUI应用程序关闭，我也想接收消息。我知道这是可能的，因为PushOver应用程序做到了！我想，我可能需要一......
Python Discord Bot 的应用程序命令的区域设置名称（多语言别名）
如何根据用户的语言设置，使应用程序命令的名称具有不同的名称例如，如果一个用户将其discord的语言设置为英语，则用户可以看到英语的应用程序命令名称。另一方面，如果另一个用户将其不和谐语言设置为法语，则用户可以看到法语中的相同应用程序命令的名称。为此，我尝试使用ap......
如何在Python中添加热键？
我正在为游戏制作一个机器人，我想在按下热键时调用该函数。我已经尝试了一些解决方案，但效果不佳。这是我的代码：defstart():whileTrue:ifkeyboard.is_pressed('alt+s'):break...defmain():whileTrue:ifkeyboard.is_pr......
在Python中解压文件
我通读了zipfile文档，但不明白如何解压缩文件，只了解如何压缩文件。如何将zip文件的所有内容解压缩到同一目录中？importzipfilewithzipfile.ZipFile('your_zip_file.zip','r')aszip_ref:zip_ref.extractall('target_directory')将......
如何在Python中从RSA公钥中提取N和E？
我有一个RSA公钥，看起来像-----BEGINPUBLICKEY-----MIIBIDANBgkqhkiG9w0BAQEFAAOCAQ0AMIIBCAKCAQEAvm0WYXg6mJc5GOWJ+5jkhtbBOe0gyTlujRER++cvKOxbIdg8So3mV1eASEHxqSnp5lGa8R9Pyxz3iaZpBCBBvDB7Fbbe5koVTmt+K06o96ki1/4NbHGyRVL/x5fFiVuTVfmk+GZNakH5dXDq0fwvJyVmUtGYA......
Swagger、Docker、Python-Flask: : https://editor.swagger.io/ 生成服务器 python-fl
在https://editor.swagger.io/上您可以粘贴一些json/yaml。我正在将此作为JSON进行测试（不要转换为YAML）：{"swagger":"2.0","info":{"version":"1.0","title":"OurfirstgeneratedRES......
使用 Matplotlib 的 Python 代码中出现意外的控制流
Ubuntu22.04上的此Python3.12代码的行为符合预期，除非我按q或ESC键退出。代码如下：importnumpyasnp,matplotlib.pyplotaspltfrompathlibimportPathfromcollectionsimportnamedtuplefromskimage.ioimportimreadfrommatplotlib.widgets......
参考 - Python 类型提示
这是什么？这是与在Python中使用类型提示主题相关的问题和答案的集合。这个问题本身就是一个社区维基；欢迎大家参与维护。这是为什么？Python类型提示是一个不断增长的话题，因此许多（可能的）新问题已经被提出，其中许多甚至已经有了答案。该集合有助于查找现有内容。范......
我的 Python 程序中解决 UVa 860 的运行时错误 - 熵文本分析器
我正在尝试为UVa860编写一个解决方案，但是当我通过vJudge发送它时，它一直显示“运行时错误”。fromsysimportstdinimportmathdefmain():end_of_input=Falselambda_words=0dictionary={}text_entropy=0relative_entropy=0whilenotend_of_in......
Python进度条
当我的脚本正在执行某些可能需要时间的任务时，如何使用进度条？例如，一个需要一些时间才能完成并在完成后返回True的函数。如何在函数执行期间显示进度条？请注意，我需要实时显示进度条，所以我不知道该怎么办。我需要thread为此吗？我不知道。现在在执行函数......

如何跳转到一个巨大的文本文件中的特定行？

相关文章

赞助商

阅读排行