首页 > 其他分享 >如何免费提取PDF里的图片-pdfimages使用教程

如何免费提取PDF里的图片-pdfimages使用教程

时间:2024-07-24 12:19:51浏览次数:10  
标签:files 教程 pdfimages ppm pdf print PDF png

写在前面

本随笔是非常菜的菜鸡写的。如有问题请及时提出。

可以联系:[email protected]

GitHhub:https://github.com/WindDevil (目前啥也没有

动机

由于WPS的提取图片需要收费,作为穷鬼的我直接在bing,键入open source software get picture form pdf.

找到这个项目:VR51/Batch-PDF-Image-Extractor: Extract images from PDF documents. Works on multiple and single PDF files (github.com)

看到这个项目的Requirements:
This script reqires pdfimages to be installed. The script will check for pdfimages and prompt for its installation if not found.

显示需要pdfimages这个工具.

安装

于是继续搜索pdfimages,得到这个网站.

我们可以看到这个库可以直接通过apt-get得到.这里由于需要用到Linux,我使用的是虚拟机的方法可以参考这篇博客.

于是在虚拟机里键入sudo apt-get install poppler-utils,注意它的名字是poppler-utils.

使用方法

直接键入pdfimages -h尝试查找它的教程:

pdfimages version 22.02.0
Copyright 2005-2022 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011 Glyph & Cog, LLC
Usage: pdfimages [options] <PDF-file> <image-root>
  -f <int>       : first page to convert
  -l <int>       : last page to convert
  -png           : change the default output format to PNG
  -tiff          : change the default output format to TIFF
  -j             : write JPEG images as JPEG files
  -jp2           : write JPEG2000 images as JP2 files
  -jbig2         : write JBIG2 images as JBIG2 files
  -ccitt         : write CCITT images as CCITT files
  -all           : equivalent to -png -tiff -j -jp2 -jbig2 -ccitt
  -list          : print list of images instead of saving
  -opw <string>  : owner password (for encrypted files)
  -upw <string>  : user password (for encrypted files)
  -p             : include page numbers in output file names
  -q             : don't print any messages or errors
  -v             : print copyright and version info
  -h             : print usage information
  -help          : print usage information
  --help         : print usage information
  -?             : print usage information

很容易看出使用方法是pdfimages [options] <PDF-file> <image-root>,也即pdfimages+选项+PDF文件路径+输出图片路径.

这里比较重点地点出,如果直接使用指令,默认生成格式不是jpg或者png,需要在输入指令的时候选项部分输入-png或者-j,这个指令就可以把pdffile.pdf的图片提取到当前目录下:

pdfimages -j pdffile.pdf ./

实验

Downloads文件夹下创建files,把主机PDF文件拷贝到虚拟机.

cd ~/Downloads
mkdir files
cd files

我直接用VScode的SSH把文件拖进去的.

写在前面

本随笔是非常菜的菜鸡写的。如有问题请及时提出。

可以联系:[email protected]

GitHhub:https://github.com/WindDevil (目前啥也没有

动机

由于WPS的提取图片需要收费,作为穷鬼的我直接在bing,键入open source software get picture form pdf.

找到这个项目:VR51/Batch-PDF-Image-Extractor: Extract images from PDF documents. Works on multiple and single PDF files (github.com)

看到这个项目的Requirements:
This script reqires pdfimages to be installed. The script will check for pdfimages and prompt for its installation if not found.

显示需要pdfimages这个工具.

安装

于是继续搜索pdfimages,得到这个网站.

我们可以看到这个库可以直接通过apt-get得到.这里由于需要用到Linux,我使用的是虚拟机的方法可以参考这篇博客.

于是在虚拟机里键入sudo apt-get install poppler-utils,注意它的名字是poppler-utils.

使用方法

直接键入pdfimages -h尝试查找它的教程:

pdfimages version 22.02.0
Copyright 2005-2022 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011 Glyph & Cog, LLC
Usage: pdfimages [options] <PDF-file> <image-root>
  -f <int>       : first page to convert
  -l <int>       : last page to convert
  -png           : change the default output format to PNG
  -tiff          : change the default output format to TIFF
  -j             : write JPEG images as JPEG files
  -jp2           : write JPEG2000 images as JP2 files
  -jbig2         : write JBIG2 images as JBIG2 files
  -ccitt         : write CCITT images as CCITT files
  -all           : equivalent to -png -tiff -j -jp2 -jbig2 -ccitt
  -list          : print list of images instead of saving
  -opw <string>  : owner password (for encrypted files)
  -upw <string>  : user password (for encrypted files)
  -p             : include page numbers in output file names
  -q             : don't print any messages or errors
  -v             : print copyright and version info
  -h             : print usage information
  -help          : print usage information
  --help         : print usage information
  -?             : print usage information

很容易看出使用方法是pdfimages [options] <PDF-file> <image-root>,也即pdfimages+选项+PDF文件路径+输出图片路径.

这里比较重点地点出,如果直接使用指令,默认生成格式不是jpg或者png,需要在输入指令的时候选项部分输入-png或者-j,这个指令就可以把pdffile.pdf的图片提取到当前目录下:

pdfimages -j pdffile.pdf ./

实验

Downloads文件夹下创建files,把主机PDF文件拷贝到虚拟机.

cd ~/Downloads
mkdir files
cd files

我直接用VScode的SSH把文件拖进去的.

然后执行pdfimages -j LDO.pdf ./,使用ls指令看一下生成了什么:

-000.ppm  -001.ppm  -002.ppm  -003.ppm  -004.ppm  -005.ppm  LDO.pdf

很奇怪地没用生成.jpg而是.ppm,挠头.

改为执行pdfimages -png LDO.pdf ./,使用ls指令看一下生成了什么:

-000.png  -000.ppm  -001.png  -001.ppm  -002.png  -002.ppm  -003.png  -003.ppm  -004.png  -004.ppm  -005.png  -005.ppm  LDO.pdf

确实可以生成.png文件.

然后只需要把图片从虚拟机拷出来就行了.

然后执行pdfimages -j LDO.pdf ./,使用ls指令看一下生成了什么:

-000.ppm  -001.ppm  -002.ppm  -003.ppm  -004.ppm  -005.ppm  LDO.pdf

很奇怪地没用生成.jpg而是.ppm,挠头.

改为执行pdfimages -png LDO.pdf ./,使用ls指令看一下生成了什么:

-000.png  -000.ppm  -001.png  -001.ppm  -002.png  -002.ppm  -003.png  -003.ppm  -004.png  -004.ppm  -005.png  -005.ppm  LDO.pdf

确实可以生成.png文件.

然后只需要把图片从虚拟机拷出来就行了.

标签:files,教程,pdfimages,ppm,pdf,print,PDF,png
From: https://www.cnblogs.com/chenhan-winddevil/p/18320596

相关文章

  • SPF,DKIM,DMARC分别是什么,精华汇总教程!
    SPF、DKIM与DMARC各自是什么?如何保障邮件真实性?在电子邮件的世界中,保障邮件的真实性和安全性变得越来越重要。为了防止垃圾邮件和钓鱼邮件,许多企业和组织都在使用SPF,DKIM,DMARC技术。AokSend将详细介绍这三种技术,让你了解它们的工作原理和重要性。SPF,DKIM,DMARC:工作原理......
  • pdf文档翻译工具哪个好用?分享小白也在用的翻译软件
    PDF文档因其便携性和格式稳定性而广泛应用于学术交流、商务沟通等多个领域。然而,语言的障碍往往成为信息交流的难题。想象一下,当你收到一份重要的外文PDF文档,却因语言不通而无法理解其内容,这无疑会大大影响工作效率。因此,拥有一款pdf文档翻译中文的软件就显得尤为重要啦。它......
  • 微信小程序 - 最新详细实现集成腾讯地图配置流程及使用教程,基于腾讯位置服务做地图标
    前言网上的教程代码太乱了,并且很少有真实请求的示例,本文提供优质配置教程及示例源码。在微信小程序开发中,详解实现接入腾讯地图教程,后台配置完整流程及使用教程,附带腾讯地图显示渲染和地图标记点,获取本机当前定位省市区或精确的经纬度,IP属地定位获取城市名称/市区名,将经......
  • Aspose项目实战!pdf、cells for java
    Aspose实战使用:Excel与PDF转换工具类在这篇博客中,我将分享如何使用Aspose库来实现Excel文件与PDF文件之间的转换。我会重点分析一个工具类AsposeOfficeUtil,这个类封装了多个与Excel和PDF相关的操作方法,帮助开发者高效地进行文件转换和数据处理。此外,还将提......
  • Autodesk Maya简体中文版百度云下载与安装(附详细教程)
    当我们在做三维动画时,常常会用到AutodeskMaya这款软件。它具有强大的建模、渲染、动画和特效功能,可以创造出高质量的视觉效果和动画作品。电影阿凡达的制作,就有它的身影。Maya的界面非常复杂,因为它提供了大量的工具和命令,但是这也意味着它具有强大的功能。它支持多种操作系统......
  • 3Dmax安装包+安装步骤+视频学习教程 百度云盘分享
    不得不承认,3dsMax和Cinema4D是目前最受欢迎的两款3D建模和动画软件。这两个软件程序都受到了专业人士的欢迎,特别是在其功能和工作流程理念非常适合的领域。它们各自都有自己独特的特性和功能,今天主要与大家一起熟悉和学习3Dmax这款工具。毫无疑问,3dsMax是一款功能强大的3D......
  • 在Python中调整pdf页面大小
    我正在使用python裁剪pdf页面。一切正常,但如何更改页面大小(宽度)?这是我的裁剪代码:input=PdfFileReader(file('my.pdf','rb'))p=input.getPage(1)(w,h)=p.mediaBox.upperRightp.mediaBox.upperRight=(w/4,h)output.addPage(p)当我裁剪页面时,我也需要......
  • Django教程(004):基于orm操作数据库的用户管理实现
    文章目录1、功能需求2、展示用户列表2.1添加url2.2创建视图2.3编写html页面3、添加用户3.1添加url3.2跳转到添加页面3.3编写添加用户页面3.4添加用户3.5实现效果3.6页面优化4、删除用户4.1添加删除用户按钮4.2添加删除url4.3删除用户4.4实现效果5、完整......
  • RV芯片验证工具链基础6--高级教程
    高级教程开放验证平台工具链的高级特性教程。picker目前已经支持使用vcs进行仿真,相关文档还在完善中回调函数利用回调处理电路事件异步编程利用异步模式简化回调消息驱动利用消息对电路和软件激励进行解耦验证框架MLVP验证框架。回调函数利用回调处理电路事......
  • Texstudio正反向搜索-配合sumatraPDF
    选项->设置->命令,然后找到外部pdf查看器,输入代码:"C:\Users\Kevin\AppData\Local\SumatraPDF\SumatraPDF.exe"-forward-search"?c:am.tex"@-inverse-search"C:\ProgramFiles\texstudio\texstudio.exe%%f-line%%l""?am.pdf"......