首页 > 编程语言 >【Amadeus原创】python读取pdf

【Amadeus原创】python读取pdf

时间:2022-11-22 15:00:15浏览次数:35  
标签:python Amadeus pdfplumber print pdf page first

1. vscode 安装python插件

2. vscode 终端安装pdfminer.six , pdfplumber

python -m pip install pdfminer.six
python -m pip install pdfplumber

3. 在代码目录,放一个pdf文件,命名为1.pdf

4. 新建python文件,代码:

import pdfplumber

# 加载pdf
path = "1.pdf"
with pdfplumber.open(path) as pdf:
    print(pdf)
    print(type(pdf))

    # 读取pdf文档信息
    print("pdf文档信息:", pdf.metadata)

    # 输出总页数
    print("pdf文档总页数:", len(pdf.pages))

    # 1.读取第一页宽度、高度等信息
    first_page = pdf.pages[0]  # pdfplumber.Page对象第一页
    # 查看页码
    print('pdf页码:', first_page.page_number)
    # 查看页宽
    print('pdf页宽:', first_page.width)
    # 查看页高
    print('pdf页高:', first_page.height)

    # 2.读取文本第一页
    first_page = pdf.pages[0]  # pdfplumber.Page对象第一页
    text = first_page.extract_text()
    print(text)

5. vscode run in terminal,试试。

标签:python,Amadeus,pdfplumber,print,pdf,page,first
From: https://www.cnblogs.com/amadeuslee/p/16915147.html

相关文章

  • OpenCV-Python之图像阈值化
    OpenCV-Python之图像阈值化这篇笔记主要介绍全局阈值和局部阈值两方面。关于阈值化方法OTSU:内方差最小,外方差最大Triangle:直方图为三个波峰或者生物中的细胞图像最为......
  • python 写一行代码,计算随机6000次摇筛子,每一个对应出现的次数
    importrandomf1=0f2=0f3=0f4=0f5=0f6=0for_inrange(6000):face=random.randint(1,6)ifface==1:f1+=1elifface......
  • Python爬虫异常怎么用邮件来通知
    正常企业做数据抓取经常会遇到各种故障问题,那么在人不能随时盯着爬虫电脑来防止错误,就需要用email来向自己报告。SMTP邮件协议是Python内置是支持的,他不仅可以发送纯文本的......
  • python 执行报错
    PSF:\python\Python-Core-50-Courses-master\learn_python>pythonhelloworld.pyC:\Users\huawei\AppData\Local\Microsoft\WindowsApps\python.exe:can'topenfi......
  • python判断文件夹是否存在不存在创建
    (39条消息)python判断目录和文件是否存在,若不存在即创建_仰望神的光的博客-CSDN博客判断目录是否存在importosdirs='/Users/joseph/work/python/'ifnotos.pat......
  • python基础知识点
    目录字典列表字典a={}a['you']=['a','b']a['me']=['c','d']print(a)输出结果:{'you':['a','b'],'me':['c','d']}列表print([2]+[3])输出结果......
  • python错误总结(常更)
    AttributeError:‘set’objecthasnoattribute‘items’出错原因是在http请求的header里,应该用冒号而不是逗号//wrongheaders={'Content-Type','applica......
  • Python工具箱系列(十五)
    前文讲述加解密时,直接将密钥写在了python源代码中,这肯定不是什么好的手法。应该将这类与代码加功效无关的信息保存到配置中,随时可以需要进行修改。从大的角度来看,配置无非......
  • [Python] 多线程 概念 使用
    python多线程1.线程的概念线程是CPU分配资源的基本单位。当一程序开始运行,这个程序就变成了一个进程,而一个进程相当于一个或者多个线程。当没有多线程编程时,一个进程......
  • 使用python中urllib.request.Request()来构建ua
    1.代码案例=构建http请求头#coding=utf-8importurllib.requestimporturllib.parseurl="http://www.baidu.com/"headers={'User-Agent':'Mozilla/5.0(WindowsNT6......