首页 > 其他分享 >盘点一个批量提取pdf文件目标信息的实用案例

盘点一个批量提取pdf文件目标信息的实用案例

时间:2022-12-04 14:56:40浏览次数:43  
标签:文件 提取 批量 text 代码 盘点 import pdf

大家好,我是皮皮。

一、前言

前几天在帮助粉丝解决问题的时候,遇到一个简单的小需求,需要批量提取pdf文件目标信息,这里拿出来跟大家一起分享,后面再次遇到的时候,可以从这里得到灵感。

二、需求澄清

下面他下载的pdf文件,有几百个文件,这里拿出部分做示例,每个pdf文件里边有一个统一社会信用代码,后面的数字和字符是他的目标信息,需要提取出来。

图片

三、实现过程

这里实现主要借用了pdf文件读取库和正则表达式来提取,先给出单个pdf文件提取的方法,代码如下所示:

from pdfminer import high_level
import re

text = high_level.extract_text('1.pdf')  # 提取pdf中的文本信息
# print(text)
regex = r'统一社会信用代码:(.*?)\n'
xinyongcode = re.findall(regex, text)
print(xinyongcode)

有了前面的代码打底之后,接下来就可以实现批量处理了,代码如下所示:

from pdfminer import high_level
from pdfminer.layout import LTTextContainer  # 文本容器
import re
import os

for root, dirs, files in os.walk('./'):
    # root 表示当前正在访问的文件夹路径; dirs 表示该文件夹下的子目录名list;files 表示该文件夹下的文件list
    # 遍历文件
    for f in files:
        file_name = os.path.join(root, f)
        if file_name.endswith('.pdf'):
            text = high_level.extract_text(file_name)  # 提取pdf中的文本信息
            regex = r'统一社会信用代码:(.*?)\n'
            xinyongcode = re.findall(regex, text)
            print(xinyongcode[0])

代码运行之后,可以依次得到所有文件携带的目标信息,如下图所示:

图片

剩下的工作就不多赘述了,大家自行考虑即可。

三、总结

大家好,我是皮皮。这篇文章主要盘点一个批量提取pdf文件目标信息的实用案例,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

标签:文件,提取,批量,text,代码,盘点,import,pdf
From: https://www.cnblogs.com/dcpeng/p/16949865.html

相关文章

  • PDF或PPT中的某个图或表无损、高清的插入word里的方法,再转成pdf后放大6400%倍仍是高
    本人使用MicrosoftOfficeLTSC专业增强版2021版本的,其他版本不确定可不可以可通过officetoolplus下载安装相应版本的office,通过安装与激活安装与激活0.参考方法网......
  • 西门子Wincc的归档数据批量导出2
    TagLoggingExport.sql脚本如下:USE[CC_oval_21_10_27_09_20_33R]GO--存储过程如果存在,则先删除存储过程IFEXISTS(SELECT*FROMsys.objectsWHEREobject_id=......
  • jupyter导出为pdf记录
    备注:以下所列的解决方法仅仅是解决【jupyter在导出pdf】过程中的某一个具体问题。建议阅读完整篇记录后再动手。持续更新写在前边打算将jupyter笔记导出为pdf,另......
  • java 生成 PDF 总结(1)
    如何用java生成PDF 文档,运行环境在linux上。自己在网上找了好多资料,总结下来做个分享。后面也会建立几个demo供大家参考。主要分为以下几个部分:1. 概述2. itext......
  • 如何使用PowerShell批量删除注册表项
    问题描述卸载了可牛压缩软件以后,发现右键菜单中仍然有可牛压缩的选项。不用想就知道是注册表中有该软件的残留。打开注册表,进行搜索发现在计算机\HKEY_USERS\S-1-5-21-36......
  • 手写shell脚本批量修改文件名
    作为前端开发,还原设计稿的同时,还要经常导出素材。某次活动需求上线前需要替换素材30张,导出时文件名如图,上传cdn时,需要重命名。如果一张张手动重命名,麻烦又耗时。于是想到......
  • #yyds干货盘点#【愚公系列】2022年04月 微信小程序-项目篇(公交查询)-04周边站点-地图
    前言1.相关API本文使用的是百度地图API,百度地图JavaScriptAPI是一套由JavaScript语言编写的应用程序接口,可帮助您在网站中构建功能丰富、交互性强的地图应用,支持PC端和移......
  • Python处理PDF
    目录ReadinfoRotatePageMergePDFsSplitPDFsEncryptaPDFDecryptaPDFAddwatermarkreference:HowtoWorkWithaPDFinPythonreference:给PDF添加水印本文使......
  • #yyds干货盘点# 歌谣学前端之继承
    前言我是歌谣我有个兄弟巅峰的时候排名c站总榜19叫前端小歌谣曾经我花了三年的时间创作了他现在我要用五年的时间超越他今天又是接近兄弟的一天人生难免坎坷大不了从......
  • #yyds干货盘点# 歌谣学前端之静态属性
    前言我是歌谣我有个兄弟巅峰的时候排名c站总榜19叫前端小歌谣曾经我花了三年的时间创作了他现在我要用五年的时间超越他今天又是接近兄弟的一天人生难免坎坷大不了从......