python将pdf转为txt

时间：2023-04-29 19:33:11浏览次数：38

标签：python text list content pdf txt page

# encoding=utf8
#-*-coding:utf-8 -*-

#pip install  pypdf2 -i https://pypi.tuna.tsinghua.edu.cn/simple

import PyPDF2
from io import StringIO


content_all_list = []

# 打开PDF文件并创建一个PyPDF2对象
with open('Scrum-Guide-Chinese-Simplified.pdf', 'rb') as fp:
    pdf_reader = PyPDF2.PdfReader(fp)



    #总页数
    page_nums = len(pdf_reader.pages)

    for i in range(0,page_nums):
        # 获取PDF文档的第一页
        page = pdf_reader.pages[i]

        # 解析PDF页面并提取文本内容
        text_content = page.extract_text()

        print(text_content)
        content_all_list.append(text_content)




print(content_all_list)

# 将文本内容写入到一个新的txt文件中
#print()方法在Win7的默认编码是gbk，它在打印时，并不是所有的字符都支持的,所以此处换成 gb18030
with open('Scrum-Guide-Chinese-Simplified.txt', 'a' ,encoding='gb18030') as txt_file:
    for one in content_all_list:
        txt_file.write(one)

标签：python,text,list,content,pdf,txt,page
From： https://www.cnblogs.com/jingzaixin/p/17364398.html

#yyds干货盘点#python包
包是一种用“点式模块名”构造Python模块命名空间的方法。例如，模块名 A.B 表示包 A 中名为 B 的子模块。正如模块可以区分不同模块之间的全局变量名称一样，点式模块名可以区分NumPy或Pillow等不同多模块包之间的模块名称。假设要为统一处理声音文件与声音数据设计一个模......
Python之路【第十八篇】：Web框架们
Python的WEB框架1.BottleBottle是一个快速、简洁、轻量级的基于WSIG的微型Web框架，此框架只由一个.py文件，除了Python的标准库外，其不依赖任何其他模块。 pipinstallbottleeasy_installbottleapt-getinstallpython-bottlewgethttp://bottlepy.org/bottle.py......
Python 与 Pycharm 安装
推荐到官网下载，不推荐使用各种电脑管家如果没有强烈的版本要求，建议使用最新版Python安装到Python官网下载页面下载安装包，官网会自动根据当前系统推荐适合的安装包笔者此时最新版为Windows版本下的3.11.3，如果官网进不去，可以从笔者提供的备用地址下载下载完安装包后打......
Python 希尔排序（Shell Sort）原理以及应用
希尔排序的原理：希尔排序是把记录按下标的一定增量分组，对每组使用直接插入排序算法排序；随着增量逐渐减少，每组包含的关键词越来越多，当增量减至1时，整个文件恰被分成一组，算法便终止。希尔排序的原理是将待排序的序列按照一定间隔分成若干个子序列，对每个子序列使用插入排序进......
Python之路【第十七篇】：Django【进阶篇】
原博客笔记链接:https://www.cnblogs.com/wupeiqi/articles/5246483.html 1.Model到目前为止，当我们的程序涉及到数据库相关操作时，我们一般都会这么搞：创建数据库，设计表结构和字段使用MySQLdb来连接数据库，并编写数据访问层代码业务逻辑层去调用数据访问层执行数......
[oeasy]python0143_主控程序_main
主控程序回忆上次内容上次把apple.py拆分成了输入主函数引用模块中变量的时候要带上包(module)名get_fruits.aget_fruits.b最终拆分代码成功！可以将程序再拆分成输入输出然后再由主函数调用吗？......
[oeasy]python0143_主控程序_main
主控程序回忆上次内容上次把apple.py拆分成了输入主函数引用模块中变量的时候要带上包(module)名get_fruits.aget_fruits.b 最终拆分代码成功！可以将程序再拆分成输入输出然后再由主函......
Python之路【第十六篇】：Django【基础篇】
原博客教材链接:https://www.cnblogs.com/wupeiqi/articles/5237704.html Python的WEB框架有Django、Tornado、Flask等多种，Django相较与其他WEB框架其优势为：大而全，框架本身集成了ORM、模型绑定、模板引擎、缓存、Session等诸多功能。 1.基本配置1.1创建django程......
python 读写mdb
Python中可以使用pyodbc模块连接MicrosoftAccess数据库（.mdb格式）。首先需要先安装pyodbc模块和MicrosoftAccess驱动程序，可以使用pip安装pyodbc：```pipinstallpyodbc```然后需要下载安装MicrosoftAccess驱动程序，下载链接：https://www.microsoft.com/zh-cn/download/details......
Python之路【第十五篇】：Web框架
原笔记链接：https://www.cnblogs.com/wupeiqi/p/4592637.html1.Web框架本质众所周知，对于所有的Web应用，本质上其实就是一个socket服务端，用户的浏览器其实就是一个socket客户端。#!/usr/bin/envpython#coding:utf-8importsocketdefhandle_request(client):......

python将pdf转为txt

相关文章

赞助商

阅读排行