首页 > 其他分享 >PDF转化为txt文件

PDF转化为txt文件

时间:2023-04-12 19:02:27浏览次数:34  
标签:name get import pdfminer 转化 pdf PDF txt

环境

python>=3.6

pip install pdfminer.six

直接贴代码:

#!/usr/bin/env python3.8.6
# _*_ coding: utf-8 _*_
# Description:
# Author: qiaoxiaohang <[email protected]>
# Date: 2023/4/12 18:20
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.converter import TextConverter, PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfdevice import PDFDevice
from pdfminer.pdfpage import PDFPage



# 获取pdf文档
def fun_pdf(url,name):
    fp = open(f'{url}', 'rb')

    # 创建一个与文档相关的解释器
    parser = PDFParser(fp)

    # pdf文档的对象,与解释器连接起来
    doc = PDFDocument(parser=parser)
    parser.set_document(doc=doc)

    # 如果是加密pdf,则输入密码
    # doc._initialize_password()

    # 创建pdf资源管理器
    resource = PDFResourceManager()

    # 参数分析器
    laparam = LAParams()

    # 创建一个聚合器
    device = PDFPageAggregator(resource, laparams=laparam)

    # 创建pdf页面解释器
    interpreter = PDFPageInterpreter(resource, device)

    # 获取页面的集合
    for page in PDFPage.get_pages(fp):
        # 使用页面解释器来读取
        interpreter.process_page(page)

        # 使用聚合器来获取内容
        layout = device.get_result()
        for out in layout:
            if hasattr(out, 'get_text'):
                print(out.get_text())

                # 写入txt文件
                fw = open(f'{name}', 'a',encoding='utf-8')
                fw.write(out.get_text())


if __name__ == '__main__':
    import os
    dir_path = 'C:\\Users\Administrator\Desktop\\test\pdf'
    data_list = os.listdir(dir_path)
    for i in data_list:
        name_txt = i.split('.')[0]+'.'+'txt'
        url=dir_path+'\\'+i
        fun_pdf(url,name_txt)

 

标签:name,get,import,pdfminer,转化,pdf,PDF,txt
From: https://www.cnblogs.com/qxh-beijing2016/p/17310863.html

相关文章

  • 把网页保存为可复制可编辑的PDF
    当你在网上看到了一篇文章,想永久保存下来,你会怎么办?ctrl+S保存为html或者mhtm?有时候html里有代码不让你保存、或者保存后打开内容有问题(如某csdn保存的html会跳转),有时候保存的网页html里图片不会正常显示(如wei信的公众号的文章在浏览器打开保存,并非wei信不让保存,而是它格式问题),有......
  • vue pc使用htmlCanvas Jspdf 实现点击将页面生成图片并转成pdf下载
    <template><divid="main"ref="workbench"v-loading="loading"class="echartsPdf">需要的内容</div></template><script>importhtml2canvasfrom'html2canvas'importJspdf......
  • 火山引擎数智平台协助洞察美图类 APP 新增长 付费用户转化超过 124%
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群美图类APP的下一个增长点在哪里?目前,国内市场上的美图类APP大多都遵循着基础功能免费使用、个性化热门功能收费使用的原则。即用户可以在APP内选择基础的免费修图功能,比如「瘦脸瘦身」、......
  • python - html转pdf
    1.安装pdfkitpip3installpdfkit2.安装wkhtmltopdf下载wkhtmltopdf安装包https://wkhtmltopdf.org/downloads.html安装后在系统Path添加wkhtmltopdf的bin路径3.简单使用将本地html转pdfimportpdfkit#如果html里引用了外部的文件,则需要添加以下参数wkhtmltopdf_o......
  • 通过java实现word转PDF
    通过java实现word转PDF原文链接:https://blog.csdn.net/ka3p06/article/details/125476270介绍用于java项目中解决word转pdf的需求,转换的效果跟调用的工具类、字体库、源文件(是wps还是microsoft保存的,格式版本等)、系统环境等多个因素相关,没有百分百完成的方法,只有不断尝试,......
  • Java实现PDF转Word
    Java实现PDF转Word原文链接:https://blog.csdn.net/Mgg9702/article/details/1249874831、引入jar包或依赖这里用到的是aspose-pdf,这个依赖需要单独配置仓库地址,也可以直接去官网下载jar包<repositories> <repository> <id>AsposeJavaAPI</id> <name>AsposeJavaAPI<......
  • java将Word转换成PDF三种方法
    java将Word转换成PDF三种方法原文链接:https://blog.csdn.net/weixin_38409915/article/details/125317664网上有很多将Word转换成PDF的方式,这里找了三种比较简单的工具:poi、jacob和aspose。1.POI依赖<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-o......
  • vue 预览PDF、Docx、EXCEL文件
      <template><divclass="contentArea"><divclass="fileContainer"ref="fileDiv"v-if="$route.query.fileName.indexOf('docx')!==-1"></div><divclass="f......
  • 2022年中国服务机器人行业研究|报告PDF分享(附原数据表)
    报告链接:http://tecdat.cn/?p=31419随着大量企业的涌入,服务机器人产业化即将到来经过多年的发展,我国已经实现了完整的服务机器人产业生态系统。在常态化疫情防控、人口老龄化、技术进步和政策支持等多种因素的推动下,行业快速度过市场教育阶段。据统计,近三年我国服务机器人相关企......
  • Mysql tinyint长度为1时在java中被转化成boolean型(踩坑)
    资料参考链接1:https://www.cnblogs.com/joeylee/p/3878223.html资料参考链接2:https://blog.csdn.net/HD243608836/article/details/118197811目录背景线上事故1污染数据2类型转换异常原因解决方法.背景踩过两次tinyint的坑线上事故1污染数据问题背景tinyint(1)在j......