电脑中有几百个PDF文件,文件内容格式一致,每个PDF文件第一页是一个表格。想把这几百个PDF文件里面的表格都提取出来,转为excel表,该怎么办?
打开ChatGPT(一定要用GPT4,编程能力很强。相比之下,gpt3.5弱太多了),输入提示词如下:
d盘有一个文件夹:guanlianjiaoyi,里面有很多pdf文件;你的任务是写一个Python程序,批量提取PDF文件中表格信息到excel文件,具体步骤:
1、打开一个PDF文件;
2、用pdfplumber提取第一页的表格信息;
3、以原有的PDF文件名作为excel表格文件标题,保存刚才提取的表格信息到excel文件,放到电脑d盘文件夹excel中
然后在命令行提示符里面安装pdfplumber:pip install pdfplumber
pdfplumber是一个Python库,用来读取和写入PDF文件。ChatGPT一会就生成了代码,复制到Visual Studio Code中,运行,很快就完成了。
打开其中的excel表检查看看,内容提取正确,完美!
标签:文件,提取,表格,Excel,excel,PDF,ChatGPT From: https://blog.51cto.com/fancyar/6407548