PDF转化为txt文件

时间：2023-04-12 19:02:27浏览次数：51

标签：name get import pdfminer 转化 pdf PDF txt

环境

python>=3.6

包

pip install pdfminer.six

直接贴代码：

#!/usr/bin/env python3.8.6
# _*_ coding: utf-8 _*_
# Description:
# Author: qiaoxiaohang <qiaoxiaohang@beyondsoft.com>
# Date: 2023/4/12 18:20
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.converter import TextConverter, PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfdevice import PDFDevice
from pdfminer.pdfpage import PDFPage



# 获取pdf文档
def fun_pdf(url,name):
    fp = open(f'{url}', 'rb')

    # 创建一个与文档相关的解释器
    parser = PDFParser(fp)

    # pdf文档的对象，与解释器连接起来
    doc = PDFDocument(parser=parser)
    parser.set_document(doc=doc)

    # 如果是加密pdf，则输入密码
    # doc._initialize_password()

    # 创建pdf资源管理器
    resource = PDFResourceManager()

    # 参数分析器
    laparam = LAParams()

    # 创建一个聚合器
    device = PDFPageAggregator(resource, laparams=laparam)

    # 创建pdf页面解释器
    interpreter = PDFPageInterpreter(resource, device)

    # 获取页面的集合
    for page in PDFPage.get_pages(fp):
        # 使用页面解释器来读取
        interpreter.process_page(page)

        # 使用聚合器来获取内容
        layout = device.get_result()
        for out in layout:
            if hasattr(out, 'get_text'):
                print(out.get_text())

                # 写入txt文件
                fw = open(f'{name}', 'a',encoding='utf-8')
                fw.write(out.get_text())


if __name__ == '__main__':
    import os
    dir_path = 'C:\\Users\Administrator\Desktop\\test\pdf'
    data_list = os.listdir(dir_path)
    for i in data_list:
        name_txt = i.split('.')[0]+'.'+'txt'
        url=dir_path+'\\'+i
        fun_pdf(url,name_txt)

标签：name,get,import,pdfminer,转化,pdf,PDF,txt
From： https://www.cnblogs.com/qxh-beijing2016/p/17310863.html

把网页保存为可复制可编辑的PDF
当你在网上看到了一篇文章，想永久保存下来，你会怎么办？ctrl+S保存为html或者mhtm？有时候html里有代码不让你保存、或者保存后打开内容有问题（如某csdn保存的html会跳转），有时候保存的网页html里图片不会正常显示（如wei信的公众号的文章在浏览器打开保存，并非wei信不让保存，而是它格式问题），有......
vue pc使用htmlCanvas Jspdf 实现点击将页面生成图片并转成pdf下载
<template><divid="main"ref="workbench"v-loading="loading"class="echartsPdf">需要的内容</div></template><script>importhtml2canvasfrom'html2canvas'importJspdf......
火山引擎数智平台协助洞察美图类 APP 新增长付费用户转化超过 124%
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群美图类APP的下一个增长点在哪里？目前，国内市场上的美图类APP大多都遵循着基础功能免费使用、个性化热门功能收费使用的原则。即用户可以在APP内选择基础的免费修图功能，比如「瘦脸瘦身」、......
python - html转pdf
1.安装pdfkitpip3installpdfkit2.安装wkhtmltopdf下载wkhtmltopdf安装包https://wkhtmltopdf.org/downloads.html安装后在系统Path添加wkhtmltopdf的bin路径3.简单使用将本地html转pdfimportpdfkit#如果html里引用了外部的文件，则需要添加以下参数wkhtmltopdf_o......
通过java实现word转PDF
通过java实现word转PDF原文链接：https://blog.csdn.net/ka3p06/article/details/125476270介绍用于java项目中解决word转pdf的需求，转换的效果跟调用的工具类、字体库、源文件（是wps还是microsoft保存的，格式版本等）、系统环境等多个因素相关，没有百分百完成的方法，只有不断尝试，......
Java实现PDF转Word
Java实现PDF转Word原文链接：https://blog.csdn.net/Mgg9702/article/details/1249874831、引入jar包或依赖这里用到的是aspose-pdf，这个依赖需要单独配置仓库地址，也可以直接去官网下载jar包<repositories> <repository> <id>AsposeJavaAPI</id> <name>AsposeJavaAPI<......
java将Word转换成PDF三种方法
java将Word转换成PDF三种方法原文链接：https://blog.csdn.net/weixin_38409915/article/details/125317664网上有很多将Word转换成PDF的方式，这里找了三种比较简单的工具：poi、jacob和aspose。1.POI依赖<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-o......
vue 预览PDF、Docx、EXCEL文件
<template><divclass="contentArea"><divclass="fileContainer"ref="fileDiv"v-if="$route.query.fileName.indexOf('docx')!==-1"></div><divclass="f......
2022年中国服务机器人行业研究|报告PDF分享（附原数据表）
报告链接：http://tecdat.cn/?p=31419随着大量企业的涌入，服务机器人产业化即将到来经过多年的发展，我国已经实现了完整的服务机器人产业生态系统。在常态化疫情防控、人口老龄化、技术进步和政策支持等多种因素的推动下，行业快速度过市场教育阶段。据统计，近三年我国服务机器人相关企......
Mysql tinyint长度为1时在java中被转化成boolean型(踩坑)
资料参考链接1:https://www.cnblogs.com/joeylee/p/3878223.html资料参考链接2:https://blog.csdn.net/HD243608836/article/details/118197811目录背景线上事故1污染数据2类型转换异常原因解决方法.背景踩过两次tinyint的坑线上事故1污染数据问题背景tinyint(1)在j......

PDF转化为txt文件

相关文章

赞助商

阅读排行