首页 > 其他分享 >PDF转化为图片

PDF转化为图片

时间:2023-12-11 10:32:59浏览次数:32  
标签:String 转化 pdf2Image file import PDF targetFolder 图片


Java 类 PDF2Image 在包 com.oncloudsoft.zbznhc.common.util.pdf 中是用来将 PDF 文件转换为图像的。它使用了 Apache PDFBox 库来处理 PDF 文档并生成图像。下面是类中每个部分的详细解释:

类和方法说明

  • PDF2Image:
  • 使用了 Lombok 库的 @Slf4j 注解,这会为类自动生成一个日志记录器(logger),可以用来记录信息、错误等。
  • 提供了两个重载的 pdf2Image 方法,用于处理 PDF 到图像的转换。
  • 方法 pdf2Image(String file, String targetFolder):
  • 接受 PDF 文件的路径和目标文件夹路径作为参数。
  • 打印日志信息。
  • 调用另一个重载的 pdf2Image 方法来执行转换。
  • 方法 pdf2Image(File file, String targetFolder):
  • 接受 File 对象和目标文件夹路径作为参数。
  • 使用 PDDocument.load 加载 PDF 文件,并设置内存使用设置为仅使用临时文件。
  • 获取 PDF 文档的总页数。
  • 使用 PDFRenderer 类来渲染 PDF 页面为图像。
  • 逐页渲染 PDF,并将渲染后的图像保存为 JPG 格式的文件。
  • 图像的文件名基于原始 PDF 文件名,并附加页码和 .jpg 后缀。
  • 处理完所有页面后,返回包含生成的图像文件路径的列表。
  • 异常处理:
  • 捕获并记录 InvalidPasswordExceptionIOException 异常。
  • 主方法 main(String[] args):
  • 用于测试 pdf2Image 方法。
  • 记录并打印转换过程所需的时间。

功能

该类主要用于将 PDF 文件转换为一系列的 JPG 图像,每页一个图像。这在需要将 PDF 文档的内容以图像形式展示或处理时非常有用,如在网页上显示 PDF 页面的预览图。

使用 Apache PDFBox

Apache PDFBox 是一个开源的 Java 工具,用于处理 PDF 文档。这个类利用 PDFBox 提供的功能来渲染和保存 PDF 页面作为图像。

注意事项

  • 需要确保 Apache PDFBox 库已被添加到项目依赖中。
  • 方法中使用了硬编码的 DPI(每英寸点数)和 JPG 图像质量设置,这可能需要根据实际需求进行调整。
  • 生成的 JPG 文件将保存在指定的目标文件夹中。
package com.oncloudsoft.zbznhc.common.util.pdf;

import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.io.MemoryUsageSetting;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.tools.imageio.ImageIOUtil;

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;


@Slf4j
public class PDF2Image {

	private static final int PAGE_SIZE = 50;

	/**
	 * 提取
	 * @param file			PDF文件
	 * @param targetFolder 	图片存放目录
	 * @return 
	 */
	public static ArrayList<String> pdf2Image(String file, String targetFolder) {
		log.info("PDF2Image中,file为:"+file);
		return pdf2Image(new File(file), targetFolder);
	}

	/**
	 * 由于apache-pdfbox版本升级到2.0.18, 部分api不兼容,覆盖旧版本pdf2Image方法
	 * @param file pdf文件
	 * @param targetFolder  图片保存文件夹路径
	 */
	public static ArrayList<String> pdf2Image(File file, String targetFolder) {

		ArrayList<String> list = new ArrayList<>();

		String prex = file.getName().split("\\.")[0];

		try (
				PDDocument document = PDDocument.load(file, MemoryUsageSetting.setupTempFileOnly());
		) {

			int pages = document.getNumberOfPages();

			PDFRenderer renderer = new PDFRenderer(document);

			int k = 0;

			int count = 1;

			List<BufferedImage> imageList = new ArrayList<>(PAGE_SIZE);

			for (;;) {

				int startPage = k * PAGE_SIZE;

				int endPage = startPage + PAGE_SIZE > pages ? pages : startPage + PAGE_SIZE;

				k++;

				imageList.clear();

				for (int i = startPage; i < endPage; i++) {

					BufferedImage image = renderer.renderImageWithDPI(i, 150);

//					imageList.add(image);

					String imgPath = targetFolder + File.separator + prex + "_" + (count++) + ".jpg";

					ImageIOUtil.writeImage(image, imgPath, 200);

					list.add(imgPath);
				}

				if (endPage == pages) break;
			}

			return list;

		} catch (InvalidPasswordException e) {
			log.error("", e);
		} catch (IOException e) {
			log.error("", e);
		}

		return list;
	}

	public static void main(String[] args) throws IOException {

		long s = System.currentTimeMillis();

		String file = "/home/sunyuhua/test/1+2.pdf";

		String folder = "/home/sunyuhua/test/jpg";

		pdf2Image(file, folder);

		System.out.println("耗时: " + (System.currentTimeMillis() - s));
	}
}


标签:String,转化,pdf2Image,file,import,PDF,targetFolder,图片
From: https://blog.51cto.com/u_13171517/8768497

相关文章

  • 其他word转化为PDF的方式
    将Word文档转换为PDF格式,除了使用COM自动化外,还有其他一些方法可以在Java中实现。这些方法通常更加可靠和跨平台。以下是一些常用的方法:1.使用ApachePOI和ApachePDFBox这种方法涉及使用ApachePOI库读取Word文档,然后使用ApachePDFBox库将内容写入PDF。这适用......
  • 使用 com.jacob.activeX 库实现 Word 到 PDF
    使用com.jacob.activeX库实现Word到PDF的转换涉及到使用Java和MicrosoftOffice的COM自动化。JACOB(JavaCOMBridge)库提供了一个桥接器,允许Java代码通过COM(组件对象模型)与Windows应用程序(如MicrosoftOffice)进行交互。以下是一个示例代码,展示如何使用JACOB库在......
  • js(canvas) 图片压缩
    1functioncompress(url,width,height){2returnnewPromise((resolve,reject)=>{3letimg=document.createElement('img')4img.onload=()=>{5letw=width6leth=img.naturalH......
  • Home-图片懒加载指令实现
    场景和指令用法场景:某些网站首页通常会很长,用户不一定能访问到页面靠下面的图片,这类图片通过懒加载优化手段可以做到,只有进入视口区域才发送图片请求指令用法:<imgv-img-lazy="item.picture"/>在图片img身上绑定指令,该图片只有正式进入到视口区域时才会发送图片网络请求实现......
  • 上海交通大学生存手册PDF
    强烈推荐所有大学生去阅读《上海交通大学生存手册》。虽然它可能有些冗长,但非常重要,因为它道出了大学教育的本质。如果几年前我能够看到这本书,也许我的大学生活会有所不同。现在我将向正在上大学或者将要上大学的你推荐这本书。无论你是985、211、普通本科生还是专科生,都请耐心......
  • 已删除但未消失的图片(Excel与WPS切换时产生的问题)
    问题:一个完全空的工作簿为何会非常大?问题分析:将工作簿后缀名改成rar,打开..xl/media,可以看到有很多图片,这些图片造成了文件大。进一步的问题:这些图片哪里来的,藏在何处。过程:这是Excel与WPS操作同一工作簿产生的问题。第一步:使用WPS打开工作簿,在其中插入嵌入到单元格的图片第......
  • 逻辑视图模型建模图片
                          ......
  • css:两个行内块元素和图片垂直居中对齐
    (目录)两个行内块元素垂直居中对齐先看一段代码:<style>.box{width:200px;height:200px;line-height:200px;font-size:20px;text-align:center;display:inline-block;background-color:green;}</style><divclass="box&q......
  • MFC CStatic 里面加载图片
    ▲效果头文件新增空间指针:private:CStatic*pBMP;BOOLCMFCApplicationBMPDlg::OnInitDialog()里面初始化://TODO:在此添加额外的初始化代码//初始化字段pBMP=(CStatic*)GetDlgItem(IDC_STATIC_BMP);//除了添加控件,还有这种方式获得控件的方式。pBMP->Mod......
  • Windows 11 cmd命令行修改背景色、设置指定图片、桌面背景
    前言全局说明Windows11cmd命令行修改背景色、设置指定图片、桌面背景一、找到设置--外观可以自定义图片,也可以使用桌面背景图片(二选一)如果设置图片位置或高、宽,没有达到你想要的,可以在“拉伸模式”、“图像对齐”设置二、设置不透明度1.设置背景100%透明度效果......