首页 > 编程问答 >如何跳转到一个巨大的文本文件中的特定行?

如何跳转到一个巨大的文本文件中的特定行?

时间:2024-07-29 08:17:46浏览次数:5  
标签:python text-files

下面的代码是否有任何替代方案:

startFromLine = 141978 # or whatever line I need to jump to

urlsfile = open(filename, "rb", 0)

linesCounter = 1

for line in urlsfile:
    if linesCounter > startFromLine:
        DoSomethingWithThisLine(line)

    linesCounter += 1

如果我正在处理一个巨大的文本文件 (~15MB) ,其行长度未知但不同,并且需要跳转到我事先知道的特定行?当我知道我至少可以忽略文件的前半部分时,我对逐一处理它们感到很糟糕。寻找更优雅的解决方案(如果有)。


对于大文件,逐行迭代会很慢。 可以使用以下方法更有效地跳转到 Python 中的大型文本文件中的特定行:

1. 使用 linecache 模块

linecache 模块允许通过行号获取特定行,而无需读取整个文件。 这对于读取文件中的随机行非常有效。

import linecache

startFromLine = 141978

line = linecache.getline(filename, startFromLine)

if line:  # 处理空行的可能性
    DoSomethingWithThisLine(line)

2. 使用文件指针操作和 seek() (对于已知行分隔符)

如果知道行分隔符(例如, \n 用于换行)并且行长度变化很大,可以通过估计每个字符的平均字节大小来优化文件指针操作:

import os

startFromLine = 141978
estimated_line_size = 100  # 调整此估计值

with open(filename, "rb") as urlsfile:
    # 粗略估计要跳过的字节数
    urlsfile.seek((startFromLine - 1) * estimated_line_size)  

    # 读取并丢弃可能不完整的行
    urlsfile.readline()  

    # 从下一行开始处理
    for line in urlsfile:
        DoSomethingWithThisLine(line.decode("utf-8")) 

重要注意事项:

  • 行分隔符: 这些方法假定默认行分隔符( \n )。 如果的文件使用不同的分隔符,请相应地调整代码。
  • 编码: encoding 参数调整为文件使用的实际编码(如果适用)。
  • 性能: linecache 更适合随机行访问,而文件指针操作更适合顺序读取。

通过使用这些方法,可以避免对大型文本文件进行不必要的迭代,从而显着提高代码的性能。 选择最适合特定需求和文件特征的方法。

标签:python,text-files
From: 620367

相关文章

  • 如何用Python制作Android服务?
    我想构建一个简单的Android应用程序,例如PushOver应用程序,它具有TCP服务器并接收其记录的文本消息,然后将其作为推送通知发送。这部分已经完成并且工作正常。但即使GUI应用程序关闭,我也想接收消息。我知道这是可能的,因为PushOver应用程序做到了!我想,我可能需要一......
  • Python Discord Bot 的应用程序命令的区域设置名称(多语言别名)
    如何根据用户的语言设置,使应用程序命令的名称具有不同的名称例如,如果一个用户将其discord的语言设置为英语,则用户可以看到英语的应用程序命令名称。另一方面,如果另一个用户将其不和谐语言设置为法语,则用户可以看到法语中的相同应用程序命令的名称。为此,我尝试使用ap......
  • 如何在Python中添加热键?
    我正在为游戏制作一个机器人,我想在按下热键时调用该函数。我已经尝试了一些解决方案,但效果不佳。这是我的代码:defstart():whileTrue:ifkeyboard.is_pressed('alt+s'):break...defmain():whileTrue:ifkeyboard.is_pr......
  • 在Python中解压文件
    我通读了zipfile文档,但不明白如何解压缩文件,只了解如何压缩文件。如何将zip文件的所有内容解压缩到同一目录中?importzipfilewithzipfile.ZipFile('your_zip_file.zip','r')aszip_ref:zip_ref.extractall('target_directory')将......
  • 如何在Python中从RSA公钥中提取N和E?
    我有一个RSA公钥,看起来像-----BEGINPUBLICKEY-----MIIBIDANBgkqhkiG9w0BAQEFAAOCAQ0AMIIBCAKCAQEAvm0WYXg6mJc5GOWJ+5jkhtbBOe0gyTlujRER++cvKOxbIdg8So3mV1eASEHxqSnp5lGa8R9Pyxz3iaZpBCBBvDB7Fbbe5koVTmt+K06o96ki1/4NbHGyRVL/x5fFiVuTVfmk+GZNakH5dXDq0fwvJyVmUtGYA......
  • Swagger、Docker、Python-Flask: : https://editor.swagger.io/ 生成服务器 python-fl
    在https://editor.swagger.io/上您可以粘贴一些json/yaml。我正在将此作为JSON进行测试(不要转换为YAML):{"swagger":"2.0","info":{"version":"1.0","title":"OurfirstgeneratedRES......
  • 使用 Matplotlib 的 Python 代码中出现意外的控制流
    Ubuntu22.04上的此Python3.12代码的行为符合预期,除非我按q或ESC键退出。代码如下:importnumpyasnp,matplotlib.pyplotaspltfrompathlibimportPathfromcollectionsimportnamedtuplefromskimage.ioimportimreadfrommatplotlib.widgets......
  • 参考 - Python 类型提示
    这是什么?这是与在Python中使用类型提示主题相关的问题和答案的集合。这个问题本身就是一个社区维基;欢迎大家参与维护。这是为什么?Python类型提示是一个不断增长的话题,因此许多(可能的)新问题已经被提出,其中许多甚至已经有了答案。该集合有助于查找现有内容。范......
  • 我的 Python 程序中解决 UVa 860 的运行时错误 - 熵文本分析器
    我正在尝试为UVa860编写一个解决方案,但是当我通过vJudge发送它时,它一直显示“运行时错误”。fromsysimportstdinimportmathdefmain():end_of_input=Falselambda_words=0dictionary={}text_entropy=0relative_entropy=0whilenotend_of_in......
  • Python进度条
    当我的脚本正在执行某些可能需要时间的任务时,如何使用进度条?例如,一个需要一些时间才能完成并在完成后返回True的函数。如何在函数执行期间显示进度条?请注意,我需要实时显示进度条,所以我不知道该怎么办。我需要thread为此吗?我不知道。现在在执行函数......