python将pdf每页截图保存

时间：2024-01-31 13:58:01浏览次数：34

标签：python image output images pdf 每页 path folder

python将pdf每页保存成图片保存

一、安装依赖包

pip install pdf2image

二、代码

import os
from pdf2image import convert_from_path

def convert_pdf_to_images(pdf_file, output_folder):
    # 创建输出文件夹
    os.makedirs(output_folder, exist_ok=True)

    # 从PDF文件中转换为图像列表
    images = convert_from_path(pdf_file,  poppler_path=r'D:\Program Files\Release-23.11.0-0\poppler-23.11.0\Library\bin', dpi=300)  # 设置图像分辨率

    # 保存图像
    for i, image in enumerate(images):
        image_path = os.path.join(output_folder, f"page_{i+1}.jpg")  # 图像保存路径
        image.save(image_path, "JPEG")

# 示例用法
input_pdf = "test.pdf"
output_folder = "testPath"   # 图像保存文件夹路径

# 示例用法
convert_pdf_to_images(input_pdf, output_folder)

上述红色部分是我本地的本地的poppler地址

官网地址：https://poppler.freedesktop.org/releases.html

标签：python,image,output,images,pdf,每页,path,folder
From： https://www.cnblogs.com/yclh/p/17999089

python识别图片中的文本保存到word中
python可以使用第三方库pytesseract实现图像的文本识别，并将识别的结果保存到word中，代码本生不复杂pytesseract环境有点麻烦这里整理总结一下一、简介Tesseract是一个由HP实验室开发由Google维护的开源的光学字符识别（OCR）引擎，可以在Apache2.0许可下获得。它可以直接使用，或者（......
《C++ Primer Plus》（第六版）中文版——思维导图+附录PDF+源代码
说明，以下文件可在异步社区免费下载不同之处在于原附录PDF文件没有书签，而本文分享的附录文件带有书签本文所有文件下载链接：https://www.123pan.com/s/lO3uVv-uaEKv.html思维导图（图片）以下仅为预览，高清图片可从文章开头下载链接中下载另外后续本人有空会制作XMind脑图版本，会添加......
【专题】2023年直播、短视频行业报告汇总PDF合集分享（附原数据表）
原文链接：https://tecdat.cn/?p=35077原文出处：拓端数据部落公众号中国直播电商行业正在经历蓬勃发展的时期，各大互联网平台之间的竞争日益激烈，而直播电商已成为品牌营销的常态。随着直播电商的崛起，对品牌提供了全新的产品营销和特惠促销渠道，同时也作为新产品生产和推广的媒体发布......
【专题】2023年中国白酒行业消费白皮书报告PDF合集分享（附原数据表）
原文链接：https://tecdat.cn/?p=34188原文出处：拓端数据部落公众号2023年中国白酒行业消费白皮书报告合集，总结了消费市场的两大传承和五大进化，以帮助白酒企业更好地理解消费者心理和供需变化，从而把握增长机会。两大传承包括争夺消费者的“第一口酒”以及品牌在消费决策中的关键作......
【专题】2023年大语言模型综合评测报告PDF合集分享（附原数据表）
原文链接：https://tecdat.cn/?p=33624原文出处：拓端数据部落公众号自2022年年末以来，人工智能大模型已成为技术领域甚至全球创新领域最受关注的话题。以ChatGPT为代表的大模型产品发展迅速，预测数据显示，到2030年，AIGC市场规模有望超过万亿元。2023年，国内主要厂商也相继推出自研的大语......
python中设置cudnn作用理解
1、cudnn的简介cuDNN（CUDADeepNeuralNetworklibrary）：是NVIDIA打造的针对深度神经网络的加速库，是一个用于深层神经网络的GPU加速库。如果你要用GPU训练模型，cuDNN不是必须的，但是一般会采用这个加速库。2、torch.backends.cudnn的理解 cuDNN使用非确定性算法，并且可以使用to......
Python+Selenium 自动化测试
自动化测试是把以人为驱动的测试行为转化成机器执行的一种过程，通常在设计了测试用例并通过评审之后，由测试人员根据测试用例中描述的规程一步步执行测试，得到实际结果与期望结果的比较，再此过程中，为了节省人力，时间或硬件资源，提高测试效率，便引用了自动化测试的概念Selenium：是一套代码......
`glob`和`fnmatch`都是Python的内置模块，用于文件名的匹配，但它们的功能和使用场景有所
`glob`和`fnmatch`都是Python的内置模块，用于文件名的匹配，但它们的功能和使用场景有所不同²。1.**fnmatch**:`fnmatch`模块提供了一种简单的方式来匹配Unixshell风格的模式，如`*.py`,`Dat[0-9]*`,`Dat[!0-9]*`等²。它只是将一个文件名与模式进行比较，返回True或False²。例如，......
Python工具箱系列(四十九)
使用PIL进行图片格式与尺寸转换现实世界中，图片是经常需要处理的二进制文件类型。从计算机发展的历史来看，图片的格式丰富多彩，但大体来说分成两类：•位图格式•矢量格式矢量格式如svg等，能够随意放大缩小而不变形，原因在于矢量格式描述了如何产生图形的方法。而位图格式(例如BMP/JPEG/PN......
解决gpt返回json Python没法解析的情况
importreimportjsondefreplace_newlines(match):#在匹配的字符串中替换\n和\rreturnmatch.group(0).replace('\n','\\n').replace('\r','\\r')defclean_json_str(json_str:str)->str:""&......

python将pdf每页截图保存

相关文章

赞助商

阅读排行