首页 > 编程语言 >python将pdf转为txt

python将pdf转为txt

时间:2023-04-29 19:33:11浏览次数:34  
标签:python text list content pdf txt page

# encoding=utf8
#-*-coding:utf-8 -*-

#pip install  pypdf2 -i https://pypi.tuna.tsinghua.edu.cn/simple

import PyPDF2
from io import StringIO


content_all_list = []

# 打开PDF文件并创建一个PyPDF2对象
with open('Scrum-Guide-Chinese-Simplified.pdf', 'rb') as fp:
    pdf_reader = PyPDF2.PdfReader(fp)



    #总页数
    page_nums = len(pdf_reader.pages)

    for i in range(0,page_nums):
        # 获取PDF文档的第一页
        page = pdf_reader.pages[i]

        # 解析PDF页面并提取文本内容
        text_content = page.extract_text()

        print(text_content)
        content_all_list.append(text_content)




print(content_all_list)

# 将文本内容写入到一个新的txt文件中
#print()方法在Win7的默认编码是gbk,它在打印时,并不是所有的字符都支持的,所以此处换成 gb18030
with open('Scrum-Guide-Chinese-Simplified.txt', 'a' ,encoding='gb18030') as txt_file:
    for one in content_all_list:
        txt_file.write(one)

 

标签:python,text,list,content,pdf,txt,page
From: https://www.cnblogs.com/jingzaixin/p/17364398.html

相关文章

  • #yyds干货盘点#python包
    包是一种用“点式模块名”构造Python模块命名空间的方法。例如,模块名 A.B 表示包 A 中名为 B 的子模块。正如模块可以区分不同模块之间的全局变量名称一样,点式模块名可以区分NumPy或Pillow等不同多模块包之间的模块名称。假设要为统一处理声音文件与声音数据设计一个模......
  • Python之路【第十八篇】:Web框架们
    Python的WEB框架1.BottleBottle是一个快速、简洁、轻量级的基于WSIG的微型Web框架,此框架只由一个.py文件,除了Python的标准库外,其不依赖任何其他模块。 pipinstallbottleeasy_installbottleapt-getinstallpython-bottlewgethttp://bottlepy.org/bottle.py......
  • Python 与 Pycharm 安装
    推荐到官网下载,不推荐使用各种电脑管家如果没有强烈的版本要求,建议使用最新版Python安装到Python官网下载页面下载安装包,官网会自动根据当前系统推荐适合的安装包笔者此时最新版为Windows版本下的3.11.3,如果官网进不去,可以从笔者提供的备用地址下载下载完安装包后打......
  • Python 希尔排序(Shell Sort)原理以及应用
    希尔排序的原理:希尔排序是把记录按下标的一定增量分组,对每组使用直接插入排序算法排序;随着增量逐渐减少,每组包含的关键词越来越多,当增量减至1时,整个文件恰被分成一组,算法便终止。希尔排序的原理是将待排序的序列按照一定间隔分成若干个子序列,对每个子序列使用插入排序进......
  • Python之路【第十七篇】:Django【进阶篇】
    原博客笔记链接:https://www.cnblogs.com/wupeiqi/articles/5246483.html 1.Model到目前为止,当我们的程序涉及到数据库相关操作时,我们一般都会这么搞:创建数据库,设计表结构和字段使用MySQLdb来连接数据库,并编写数据访问层代码业务逻辑层去调用数据访问层执行数......
  • [oeasy]python0143_主控程序_main
    主控程序回忆上次内容上次把apple.py拆分成了输入主函数引用模块中变量的时候要带上包(module)名get_fruits.aget_fruits.b最终拆分代码成功!可以将程序再拆分成输入输出然后再由主函数调用吗?......
  • [oeasy]python0143_主控程序_main
    主控程序回忆上次内容上次把apple.py拆分成了输入主函数 引用模块中变量的时候要带上包(module)名get_fruits.aget_fruits.b  最终拆分代码成功! 可以将程序再拆分成输入输出 然后再由主函......
  • Python之路【第十六篇】:Django【基础篇】
    原博客教材链接:https://www.cnblogs.com/wupeiqi/articles/5237704.html Python的WEB框架有Django、Tornado、Flask等多种,Django相较与其他WEB框架其优势为:大而全,框架本身集成了ORM、模型绑定、模板引擎、缓存、Session等诸多功能。 1.基本配置1.1创建django程......
  • python 读写mdb
    Python中可以使用pyodbc模块连接MicrosoftAccess数据库(.mdb格式)。首先需要先安装pyodbc模块和MicrosoftAccess驱动程序,可以使用pip安装pyodbc:```pipinstallpyodbc```然后需要下载安装MicrosoftAccess驱动程序,下载链接:https://www.microsoft.com/zh-cn/download/details......
  • Python之路【第十五篇】:Web框架
    原笔记链接:https://www.cnblogs.com/wupeiqi/p/4592637.html1.Web框架本质众所周知,对于所有的Web应用,本质上其实就是一个socket服务端,用户的浏览器其实就是一个socket客户端。#!/usr/bin/envpython#coding:utf-8importsocketdefhandle_request(client):......