首页 > 编程语言 >利用 python 抽取pdf 中表格到 excel

利用 python 抽取pdf 中表格到 excel

时间:2023-10-18 18:00:54浏览次数:36  
标签:tables index python writer excel df pdf

首先推荐 camelot

    pdf_file_input = "TTAF086-2021.pdf"
    tables = camelot.read_pdf(pdf_file_input, pages='11', flavor='stream')
    df = tables[0].df
    df.to_excel("TTAF086-2021.xlsx",index=False)

pdf 表格

效果如下

其次是使用 pdfplumber

 pdf_file_input = "TTAF086-2021.pdf"
    tables = pdfplumber.open(pdf_file_input).pages[10].extract_table()
    df = pd.DataFrame(tables)
    df.to_excel("TTAF086-2021.xlsx",index=False)

效果如下

给 excel 添加边框 需要优化

    writer = pd.ExcelWriter("output.xlsx", engine="xlsxwriter")
    for table in tables:
        df = table.df
        df.to_excel(writer, sheet_name=f"Sheet1", index=False)
        workbook = writer.book
        worksheet = writer.sheets['Sheet1']
        header_format = workbook.add_format({'border': 1})
        for col_num, value in enumerate(df.columns.values):
            for index, row in df.iterrows():
                worksheet.write(index + 1, col_num, row[col_num], header_format)

    writer.close()

标签:tables,index,python,writer,excel,df,pdf
From: https://www.cnblogs.com/guanchaoguo/p/17772980.html

相关文章

  • Python基础习题1
    请大家不要上网搜索或在pycharm里试运行,尽量要闭卷做练习,做错的我们统一讲解。 1. 关于 Python的编程环境,下列的哪个表述是正确的?(   )A、Python的编程环境是图形化的;B、 Python只有一种编程环境ipython;C、Python自带的编程环境是IDLE;D、用windows自带的......
  • Linux 下安装 miniconda,管理 Python 多环境
    安装miniconda1、下载安装包Miniconda3-py37_22.11.1-1-Linux-x86_64.sh,或者自行选择版本2、把安装包上传到服务器上,这里放在/home/software3、安装bashMiniconda3-py37_22.11.1-1-Linux-x86_64.sh4、按回车WelcometoMiniconda3py37_22.11.1-1Inordertocontin......
  • 利用 pandas 自动合并 excel 单元格
    代码比较简洁df=pd.DataFrame({"animal":("horse","horse","dog","dog"),"color":("black","white","grey","black"),"name&qu......
  • mac搭建python3 开发环境
    #这是linux版的,macos版的https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py38_4.8.2-MacOSX-x86_64.shcurlhttps://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py38_4.8.2-Linux-x86_64.sh-o/tmp/miniconda.shbash/tmp/minic......
  • 企业级 SigningPDF 数字签名 - 如何安装 GlobalSign AATL 文档签名证书
    派胜SigningPDF全球签是一款企业级PDF数字签名软件,可信数字签名、电子印章和时间戳解决方案。SigningPDF支持Adobe全球认可的证书颁发机构,高自动化为PDF文档添加可信合法的数字签名。访问SigningPDF官网下载最新版。https://www.paioffice.com/signingpdf/downloads(1)申......
  • 【小白必看】轻松获取王者荣耀英雄皮肤图片的Python爬虫程序
    前言当谈到王者荣耀游戏时,无法忽视的是其丰富多样的英雄皮肤。这些皮肤不仅为玩家提供了个性化的游戏体验,还展示了设计师们的创造力和努力。然而,要手动下载每个英雄的皮肤图片是一项枯燥且费时的任务。幸运的是,我们可以利用编程的力量来自动化这一过程。本文将介绍如何使用Pytho......
  • Vue 实现 PDF 导出功能
    旨在通过html2canvas和jspdf,先将页面的html转成canvas,再将canvas转成pdf,同时解决了分页截断的问题。安装依赖yarnaddhtml2canvasyarnaddjspdf思路通过网上的一些教程,初步实现了html转pdf的功能,将一整个DOM元素放进去,虽然可以粗糙实现,但是出现了很多地方......
  • 【Python&RS】基于GDAL栅格数据/图片位深度(bit)转换
    ​    最近在用OpenCv库处理图片时发现cv库无法读取64位的tif影像,所有想通过Python将64位的图片转换成8位的。今天就跟大家分享一下如何利用Python的GDAL库,实现栅格数据/图片的位深度转换。        在数字图像处理中,我们常常会听到不同的位数术语,比如64位、16......
  • 【小白必看】Python爬虫数据处理与可视化
    前言本文分析了一段Python代码,主要功能是从网页中提取数据并进行数据处理与可视化。代码通过发送HTTP请求获取网页内容,使用XPath解析网页内容,并提取所需数据。然后使用pandas库构建数据结构,对数据进行统计与分组,并使用matplotlib库进行数据可视化。最后,对数据进行筛选、排序和保......
  • 【小白必看】使用Python批量下载英雄联盟皮肤图片的技术实现
    前言英雄联盟是一款备受喜爱的团队对战游戏,游戏中每位英雄都有各种精美的皮肤供玩家选择。本文将介绍一个使用Python编写的英雄联盟皮肤下载器,可以快速获取所有英雄的皮肤图片,让您更方便地欣赏和收藏这些皮肤。运行效果截图导入必要的模块和库importrequests#pipi......