首页 > 其他分享 ># yyds干货盘点 # 盘点一个批量提取pdf文件目标信息的实用案例

# yyds干货盘点 # 盘点一个批量提取pdf文件目标信息的实用案例

时间:2022-12-04 15:01:20浏览次数:41  
标签:yyds 提取 文件 text 代码 盘点 import pdf

大家好,我是皮皮。

一、前言

前几天在帮助粉丝解决问题的时候,遇到一个简单的小需求,需要批量提取​​pdf​​文件目标信息,这里拿出来跟大家一起分享,后面再次遇到的时候,可以从这里得到灵感。

二、需求澄清

下面他下载的​​pdf​​文件,有几百个文件,这里拿出部分做示例,每个​​pdf​​文件里边有一个统一社会信用代码,后面的数字和字符是他的目标信息,需要提取出来。

# yyds干货盘点 # 盘点一个批量提取pdf文件目标信息的实用案例_Python应用

三、实现过程

这里实现主要借用了​​pdf​​文件读取库和正则表达式来提取,先给出单个​​pdf​​文件提取的方法,代码如下所示:

from pdfminer import high_level
import re

text = high_level.extract_text('1.pdf') # 提取pdf中的文本信息
# print(text)
regex = r'统一社会信用代码:(.*?)\n'
xinyongcode = re.findall(regex, text)
print(xinyongcode)

有了前面的代码打底之后,接下来就可以实现批量处理了,代码如下所示:

from pdfminer import high_level
from pdfminer.layout import LTTextContainer # 文本容器
import re
import os

for root, dirs, files in os.walk('./'):
# root 表示当前正在访问的文件夹路径; dirs 表示该文件夹下的子目录名list;files 表示该文件夹下的文件list
# 遍历文件
for f in files:
file_name = os.path.join(root, f)
if file_name.endswith('.pdf'):
text = high_level.extract_text(file_name) # 提取pdf中的文本信息
regex = r'统一社会信用代码:(.*?)\n'
xinyongcode = re.findall(regex, text)
print(xinyongcode[0])

代码运行之后,可以依次得到所有文件携带的目标信息,如下图所示:

# yyds干货盘点 # 盘点一个批量提取pdf文件目标信息的实用案例_Python应用_02

剩下的工作就不多赘述了,大家自行考虑即可。

三、总结

大家好,我是皮皮。这篇文章主要盘点一个批量提取​​pdf​​文件目标信息的实用案例,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

标签:yyds,提取,文件,text,代码,盘点,import,pdf
From: https://blog.51cto.com/u_13389043/5909981

相关文章

  • 盘点一个批量提取pdf文件目标信息的实用案例
    大家好,我是皮皮。一、前言前几天在帮助粉丝解决问题的时候,遇到一个简单的小需求,需要批量提取pdf文件目标信息,这里拿出来跟大家一起分享,后面再次遇到的时候,可以从这里得到......
  • PDF或PPT中的某个图或表无损、高清的插入word里的方法,再转成pdf后放大6400%倍仍是高
    本人使用MicrosoftOfficeLTSC专业增强版2021版本的,其他版本不确定可不可以可通过officetoolplus下载安装相应版本的office,通过安装与激活安装与激活0.参考方法网......
  • jupyter导出为pdf记录
    备注:以下所列的解决方法仅仅是解决【jupyter在导出pdf】过程中的某一个具体问题。建议阅读完整篇记录后再动手。持续更新写在前边打算将jupyter笔记导出为pdf,另......
  • java 生成 PDF 总结(1)
    如何用java生成PDF 文档,运行环境在linux上。自己在网上找了好多资料,总结下来做个分享。后面也会建立几个demo供大家参考。主要分为以下几个部分:1. 概述2. itext......
  • #yyds干货盘点#【愚公系列】2022年04月 微信小程序-项目篇(公交查询)-04周边站点-地图
    前言1.相关API本文使用的是百度地图API,百度地图JavaScriptAPI是一套由JavaScript语言编写的应用程序接口,可帮助您在网站中构建功能丰富、交互性强的地图应用,支持PC端和移......
  • Python处理PDF
    目录ReadinfoRotatePageMergePDFsSplitPDFsEncryptaPDFDecryptaPDFAddwatermarkreference:HowtoWorkWithaPDFinPythonreference:给PDF添加水印本文使......
  • #yyds干货盘点# 歌谣学前端之继承
    前言我是歌谣我有个兄弟巅峰的时候排名c站总榜19叫前端小歌谣曾经我花了三年的时间创作了他现在我要用五年的时间超越他今天又是接近兄弟的一天人生难免坎坷大不了从......
  • #yyds干货盘点# 歌谣学前端之静态属性
    前言我是歌谣我有个兄弟巅峰的时候排名c站总榜19叫前端小歌谣曾经我花了三年的时间创作了他现在我要用五年的时间超越他今天又是接近兄弟的一天人生难免坎坷大不了从......
  • #yyds干货盘点# 名企真题专题:小米Git
    1.简述:描述Git是一个常用的分布式代码管理工具,Git通过树的形式记录文件的更改历史(例如示例图),树上的每个节点表示一个版本分支,工程师经常需要找到两个分支的最近的分割点。......
  • #yyds干货盘点# LeetCode程序员面试金典:旋转矩阵
    题目:给你一幅由N×N矩阵表示的图像,其中每个像素的大小为4字节。请你设计一种算法,将图像旋转90度。不占用额外内存空间能否做到? 示例1:给定matrix=[ [1,2,3],......