首页 > 编程语言 >python 调用Adobe Acrobat 将pdf 转 excel

python 调用Adobe Acrobat 将pdf 转 excel

时间:2022-10-22 21:55:39浏览次数:55  
标签:Adobe python excel acrobat https PDF pdf com Acrobat

最近需要批量转换一些pdf 扫描件,就开始找相关的python包

花了不少时间试了下 pdfplumber,pypdf2,camelot 这几个包 发现都不能成功的转化,原因就在于 手上的pdf 是扫描件, 并不是excel格式的pdf文件

pdf扫描件 其实就是张图片, 如果要转excel 应该是需要ocr识别 然后再处理数据后 导出, 没太多时间研究这个也就放弃这个想法了

之前使用过acrobat转化, 搜了下果然有 相关python 调用的acrobat的方法(acrobat 支持 javascript )

一通操作后 终于成功, 下面把错误的几个点记录下

 

1.(-2147352567, '发生意外。', (1001, 'Acrobat JavaScript', 'NotAllowedError: 安全性设置禁止访问本属性或方法。', None, 0, 0), None)

被这个报错困扰好久 好久,  一直以为是 acrobat 中的问题, 修改了相关配置,  添加 Privileged context, 调整输出文件位置 都不行,

最后发现是自己的把保存的文件名给写错了(大小写未替换的问题), 相当于对源文件进行了覆盖导致的报错...

 

2.vscode 文件位置信息:

平时使用 os.path.realpath(os.path.dirname(sys.argv[0]))  返回文件位置, 但在vscode 返回的是 ipykernel_launcher.py 

查了下 原因是 在jupyter notebook中调用时,sys.argv的值为ipykrnel_launcher.py

解决的链接:https://blog.csdn.net/wmq104/article/details/123534597

 

空了把代码传上来

 

 

一些找到相关信息的链接:

PDF 中 JavaScript 的安全性风险:
https://helpx.adobe.com/cn/acrobat/using/javascripts-pdfs-security-risk.html

 

Privileged context:

https://www.experts-exchange.com/questions/26922471/Why-do-I-get-a-NotAllowedError-Security-settings-prevent-access-to-this-property-or-method-when-trying-to-Use-SaveAs-in-Acrobat-9-Pro.html

 

Using trusted functions:
https://acrobatusers.com/tutorials/using_trusted_functions/

 

Converting a PDF to a different file format:

https://acrobatusers.com/tutorials/how-save-pdf-acrobat-javascript/

 

Acrobat-PDFL SDK: JavaScript APIs:

https://opensource.adobe.com/dc-acrobat-sdk-docs/library/jsapiref/index.html   Adobe Acrobat DC SDK 开发: https://blog.csdn.net/lc316546079/article/details/72674485   Acrobat & PDF Scripting Learning Center & Library: https://www.pdfscripting.com/   Entering folder level scripts: https://acrobatusers.com/tutorials/folder_level_scripts/  

自动完成PDF转Word:
https://cloud.tencent.com/developer/article/1987395

 

PDF中的Javascript利用:
http://blog.nsfocus.net/pdf-vul/

 

 

             

标签:Adobe,python,excel,acrobat,https,PDF,pdf,com,Acrobat
From: https://www.cnblogs.com/dontbealarmedimwithyou/p/16817411.html

相关文章

  • 重温Excel基础函数(17):Count、Counta、Countif、Countblank计数函数
    1概念Count函数:​统计含数值型数字的单元格的个数。Counta函数:统计非空单元格的个数。Countif函数:按条件统计单元格个数。Countblank函数:统计空单元格的个数。2语法01.Count......
  • python的字符串截取
    截取规则:实际Python字符串截取的规则为“前闭后开”简单规律总结:字符串截取一般有两种形式[:]这种形式就是从哪截取到哪里如果是负数就从后往前找[::]这种......
  • 【Web开发】Python实现Web服务器(Flask测试统计图表)
    1、前言提示:Flask是一个用python语言基于Werkzeug工具箱编写的轻量级web开发框架,它主要面向需求简单,项目周期短的小应用。Flask是一个使用Python编写的轻量级Web应用......
  • 【Web开发】Python实现Web服务器(Flask测试后台框架模板)
    1、前言提示:Flask是一个用python语言基于Werkzeug工具箱编写的轻量级web开发框架,它主要面向需求简单,项目周期短的小应用。Flask是一个轻量级的可定制框架,使用Python语言......
  • python内置方法__getitem__,__delitem__,__setitem__
    classFoo:def__init__(self,name):self.name=namedef__getitem__(self,item):print('getitem')print(item)returns......
  • Python列表操作
    目录导航:1.for循环遍历列表2.range()函数3.对数字列表的统计操作4.列表切片5.复制列表6.元组的定义7.修改元组  1.for循环遍历......
  • Python第七章实验报告
    一.实验名称:《零基础学Python》第7章面向对象程序设计二.实验环境:IDLEShell3.9.7三.实验内容:5道实例、4道实战四.实验过程:实例01创建大雁类并定义飞行方法点......
  • (数据科学学习手札145)在Python中利用yarl轻松操作url
    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes1简介大家好我是费老师,在诸如网络爬虫、web应用开发等场景中,我们需要利......
  • python面试-理论面试题
    1.变量与值在内存中的关系变量通过变量指针,引用对象变量指针指向具体对象的内存空间,取对象的值。1.对象,类型已知,每个对象都包含一个头部信息(头部信息:类型标识符和引用......
  • excel2019如何做单元格下拉列表选择来规范内容
    在某浪法国,但一直在审核,仅作者可见,我不认为这方面的笔记能够触犯什么禁忌。新浪博客(sina.com.cn) 在使用Excel单元格时,有些列的单元格内容需要规范内容,比如性别。这......