首页 > 其他分享 >零代码量化投资:用ChatGPT提取企业PDF年报中的多页表格

零代码量化投资:用ChatGPT提取企业PDF年报中的多页表格

时间:2023-06-25 21:31:55浏览次数:41  
标签:文件 提取 表格 粉材 多页 PDF ChatGPT

企业PDF年报中有很多信息,里面表格很多,所以经常需要提取其中的表格。用ChatGPT来编程实现,非常简单。

案例1:提取鑫铂股份募集说明书中的行业主要法律法规及政策表格

零代码量化投资:用ChatGPT提取企业PDF年报中的多页表格_文件保存

在ChatGPT输入提示语如下:

写一段Python代码,实现提取PDF文件中表格的功能。具体步骤如下:

打开PDF文件,文件路径是:F:\金属材料\鑫铂股份-鑫铂股份募集说明书(修订稿)-2023-05-16.pdf

用pdfplumber提取这个PDF文件中19页-22页的表格;

合并提取到的表格;

表格文件保存到F盘的“行业主要法律法规及政策.xlsx”

注意:每一步都要输出信息

零代码量化投资:用ChatGPT提取企业PDF年报中的多页表格_文件路径_02

程序运行后,表格完美提取出来:

零代码量化投资:用ChatGPT提取企业PDF年报中的多页表格_Python_03

案例2:提取有研粉材-2022年半年度报告中涉及政府补助的项目表格

零代码量化投资:用ChatGPT提取企业PDF年报中的多页表格_文件路径_04

注意,有几页表格开头只有一个单元格,提取出来直接合并会出错。

零代码量化投资:用ChatGPT提取企业PDF年报中的多页表格_Python_05

所以,要去掉第一行。在ChatGPT中输入提示词如下:

写一段Python代码,实现提取PDF文件中表格的功能。具体步骤如下:

打开PDF文件,文件路径是:F:\金属材料\有研粉材-2022年半年度报告-2022-08-26.pdf

用pdfplumber提取这个PDF文件中128页-131页的表格;

129页-131页提取到的表格,去掉第一行;

合并所有提取到的表格;

表格文件保存到F盘的“有研粉材涉及政府补助的项目.xlsx”

注意:每一步都要输出信息

零代码量化投资:用ChatGPT提取企业PDF年报中的多页表格_Python_06

标签:文件,提取,表格,粉材,多页,PDF,ChatGPT
From: https://blog.51cto.com/fancyar/6548892

相关文章

  • 文心一言 VS 讯飞星火 VS chatgpt (47)-- 算法导论6.1 5题
    五、一个已排好序的数组是一个最小堆吗?文心一言:一个已排好序的数组不一定是一个最小堆。最小堆是一种特殊的二叉树,它满足以下性质:对于任意节点x,其父节点y的值都小于等于x的值。而一个已排好序的数组只是一个有序数组,它满足任意的元素都是按从小到大的顺序排列的,但并不一定满......
  • 文心一言 VS 讯飞星火 VS chatgpt (47)-- 算法导论6.1 5题
    五、一个已排好序的数组是一个最小堆吗?文心一言:一个已排好序的数组不一定是一个最小堆。最小堆是一种特殊的二叉树,它满足以下性质:对于任意节点x,其父节点y的值都小于等于x的值。而一个已排好序的数组只是一个有序数组,它满足任意的元素都是按从小到大的顺序排列的,但并不一定......
  • 基于瑞芯微camera文章汇总pdf分享给大家
    前面一段时间基于瑞芯微3568平台编写了camera系列文章,一共12篇,目前更新完毕。《瑞芯微文章合集》camera系列文章编写前后一共花费2个月时间,期间查阅了很多资料,做了很多实验,根据自己的理解,画了很多流程图、架构图,同时得到了瑞芯微技术讨论群里众多老铁的帮助,因此文章得到了......
  • !!最新ChatGPT Plus开通!!
    大纲:1.使用美国AppleID(没有的话自己注册一个)2.支付宝充值礼品卡到美区AppleID3.升级到ChatGPTPlus4.使用体验一、注册美区ID假设你已经拥有可以下载app的美区账号(账单地址记得选免税州-AK)​然后注册完打开AppStore,右上角的头像登录一下,进行切换新的AppleID。搜索“C......
  • 利用chatgpt解决单主机多实例模式Redis主从配置的报错问题:Error condition on socket
    今天在配置redis主从配置时,从实例报错:ErrorconditiononsocketforSYNC:Connectionrefused我是在单体机上配置三个实例,实现redis的一主二从。1.首先,创建三个文件夹,名字分别叫7001、7002、7003(我喜欢将应用安装在tmp下)#进入/tmp目录cd/tmp#创建目录mkdir70017......
  • 【Java】修改生成的PDF的表格中文字的字体
    首先导入依赖<dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.10</version></dependency>使用form.setFieldProperty("${表格名字}",&......
  • ChatGPT 最好的替代品
    前两天我们邀请了微软工程师为我们揭秘ChatGPT,直播期间有个读者问到:有了ChatGPT,BERT未来还有发展前途吗?我想起来最近读过的一篇博客“最好的ChatGPT替代品”。不过聊到这俩模型,就不得不提到Transformer。作为当下最先进的深度学习架构之一,Transformer被广泛应用于自然语言......
  • 零代码量化投资:用ChatGPT下载沪深300成分股历史数据
    很多量化策略都会以沪深300成分股作为股票池。因此,沪深300成分股历史数据会经常用到。在ChatGPT输入如下提示语,就可以下载沪深300成分股历史数据:沪深300成分股:query_hs300_stocks()方法说明:通过API接口获取沪深300成分股信息,更新频率:每周一更新。返回类型:pandas的DataFrame类型。使......
  • 第六节:基于.Net的OpenAI包测试使用ChatGPT的各种Api
    一.前置1. 说明 支持多种语言,详见:https://platform.openai.com/docs/libraries/community-libraries 以.Net为例,主要有三个包  OpenAI           https://github.com/OkGoDoIt/OpenAI-API-dotnet  Betalgo.OpenAI     https://g......
  • 文心一言 VS 讯飞星火 VS chatgpt (46)-- 算法导论6.1 4题
    四、假设一个最大堆的所有元素都不相同,那么该堆的最小元素应该位于哪里?文心一言:最大堆的最小元素位于堆的根结点。由于最大堆的性质,根结点是堆中所有元素的最大值,因此它也是堆中所有元素的最小值。讯飞星火:假设一个最大堆的所有元素都不相同,那么该堆的最小元素应该位于根节点。因......