首页 > 其他分享 >poi实现多个word文档的合并测试代码样例

poi实现多个word文档的合并测试代码样例

时间:2024-08-15 15:38:43浏览次数:19  
标签:java String word 样例 new util doc poi import

提供一个代码样例实现使用poi工具包合并多个word文档:

工具类 MergeDocUtils

package com.yootii.bdy.util.test;

import org.apache.commons.collections.CollectionUtils;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.usermodel.BreakType;
import org.apache.poi.xwpf.usermodel.Document;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFPictureData;
import org.apache.xmlbeans.XmlOptions;
import org.openxmlformats.schemas.wordprocessingml.x2006.main.CTBody;

import java.io.File;
import java.io.FileInputStream;
import java.io.OutputStream;
import java.nio.file.Files;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MergeDocUtils {
    public static void mergeDoc(List<File> fileList, File newFile) {
        try {
            System.out.println("正在合并文件:" + newFile);
            OutputStream dest = Files.newOutputStream(newFile.toPath());
            if(CollectionUtils.isEmpty(fileList)){
                System.out.println("待合并文件为空,合并文件失败:" + newFile.toString());
                return;
            }
            // 判断文件格式是不是以docx或doc结尾
            for (int i = 0; i < fileList.size(); i++) {
                if (!(fileList.get(i).getName().toLowerCase().endsWith(".doc")
                        || fileList.get(i).getName().toLowerCase().endsWith(".docx"))) {
                    System.out.println("文件格式错误,合并失败:" + newFile.toString());
                    break;
                }
            }
            // 打开第一个文件
//			Path path1 = Paths.get(fileList.get(0));
//			boolean exists = Files.exists(path1);
//			System.out.println("文件是否存在: " + exists);
            ArrayList<XWPFDocument> documentList = new ArrayList<XWPFDocument>();
            XWPFDocument doc = null;
            for (int i = 0; i < fileList.size(); i++) {
                FileInputStream in = new FileInputStream(fileList.get(i).getPath());
                OPCPackage open = OPCPackage.open(in);
                XWPFDocument document = new XWPFDocument(open);
                documentList.add(document);
            }
            for (int i = 0; i < documentList.size(); i++) {
                doc = documentList.get(0);
                // 加入分页
                if (i != documentList.size()-1){
                    documentList.get(i).createParagraph().createRun().addBreak(BreakType.PAGE);
                }
                // 从第二个文件开始追加合并
                if (i != 0) {
                    // 但是会出现在首行为空的情况
//                    documentList.get(i).createParagraph().setPageBreak(true);
                    appendBody(doc, documentList.get(i));
                }
            }
            // 输出合并之后的文件
            if (doc != null) {
                doc.write(dest);
            }
        }catch (Exception e){
            e.printStackTrace();
//            System.out.println("合并文件失败:" + newFile.toString());
        }
    }

    public static void appendBody(XWPFDocument src, XWPFDocument append) throws Exception {
        CTBody src1Body = src.getDocument().getBody();
        CTBody src2Body = append.getDocument().getBody();
        List<XWPFPictureData> allPictures = append.getAllPictures();
        // 记录图片合并前及合并后的ID
        Map<String, String> map = new HashMap();
        for (XWPFPictureData picture : allPictures) {
            String before = append.getRelationId(picture);
            // 将原文档中的图片加入到目标文档中
            String after = src.addPictureData(picture.getData(), Document.PICTURE_TYPE_PNG);
            map.put(before, after);
        }
        appendBodyDetail(src1Body, src2Body, map);
    }

    private static void appendBodyDetail(CTBody src, CTBody append, Map<String, String> map) throws Exception {
        XmlOptions optionsOuter = new XmlOptions();
        optionsOuter.setSaveOuter();
        String appendString = append.xmlText(optionsOuter);
        // 去掉追加word内容中的 w:sectPr 标签,确保合成的word中只有一个 w:sectPr 标签对
        // 避免合成的word文档打开之后会提示有些内容读不出来,导致文件损坏
        String rgex = "<[\\s]*?w:sectPr[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?w:sectPr[\\s]*?>";
        appendString = appendString.replaceAll(rgex, "");
        String srcString = src.xmlText();
//        String regex = regexText(srcString, "w:sectPr");
//        System.out.println(regex);
        String prefix = srcString.substring(0, srcString.indexOf(">") + 1);
        String mainPart = srcString.substring(srcString.indexOf(">") + 1, srcString.lastIndexOf("<"));
        String sufix = srcString.substring(srcString.lastIndexOf("<"));
        String addPart = appendString.substring(appendString.indexOf(">") + 1, appendString.lastIndexOf("<"));

        if (map != null && !map.isEmpty()) {
            // 对xml字符串中图片ID进行替换
            for (Map.Entry<String, String> set : map.entrySet()) {
                addPart = addPart.replace(set.getKey(), set.getValue());
            }
        }
        // 将两个文档的xml内容进行拼接
        CTBody makeBody = CTBody.Factory.parse(prefix + mainPart + addPart + sufix);
        src.set(makeBody);
    }
}

测试类 WordMergeTest

package com.yootii.bdy.util.test;

import java.io.File;
import java.time.LocalDate;
import java.util.ArrayList;
import java.util.List;
import java.util.UUID;

/**
 * @BelongsProject: ip_service
 * @BelongsPackage: com.yootii.bdy.util.test
 * @Author: chuanwei.yang 42624
 * @CreateTime: 2024-08-12  11:47
 * @Description: TODO
 * @Version: 1.0
 */
public class WordMergeTest {
    public static void main(String[] args) throws Exception {
        // new一个list 模拟要合并的word对象集合
        List<File> docFileList = new ArrayList<>();
        docFileList.add(new File("D:\\ipdoc\\template\\POA\\2\\LD2021000106\\1723521822027\\所函(二审)LD2021000106.doc"));
        docFileList.add(new File("D:\\ipdoc\\template\\POA\\2\\LD2021000106\\1723521822027\\所函(一审)-第三人LD2021000115.doc"));
//        docFileList.add(new File("D:\\ipdoc\\template\\POA\\2\\LD2021000335\\1723430865470\\测试文件test.docx"));
//        docFileList.add(new File("D:\\ipdoc\\template\\POA\\2\\LD2021000335\\1723430865470\\测试文件test2.docx"));

        //合并之后doc存储路径 此处读的配置文件的存储路径 D:/pdfData/
        String docPath = "D:\\ipdoc\\template\\POA\\2\\LD2021000335\\1723430865470\\";
        //当前日期+UUID 作为文件名防止重复
        String fileName = LocalDate.now() + "_" + UUID.randomUUID().toString().replaceAll("-", "");
        //合并之后doc存储路径
        String mergeDocUrl = docPath+fileName+".docx";
        //转成file对象
        File mergeDocFile = new File(mergeDocUrl);
        //合并doc
        MergeDocUtils.mergeDoc(docFileList,mergeDocFile);
        System.out.println("合并word成功");
    }
}

把测试方法里的文件路径改一下,改成你自己要用的文件就可以,实现效果就是例如把文件A和B合并在一起,文件A有2.5页(也就是第三页没占满),文件B有1页,合并之后的文件有4页,会在每个独立文件之后插入一个分页符再进行新文件内容的追加,保证阅读的连贯性。

标签:java,String,word,样例,new,util,doc,poi,import
From: https://www.cnblogs.com/rainbow-1/p/18361082

相关文章

  • SO-Net: Self-Organizing Network for Point Cloud Analysis
    Abstract本文提出了SO-Net,是一种创新的深度学习架构,为处理无序点云数据设计。SO-Net利用自组织映射(SOM)技术来捕捉点云的空间分布,并实现排列不变的特征提取。这种分层特征提取方法能够从局部到全局提取特征,还能够通过点到节点的k最近邻搜索系统地调整网络的receptivefield,从......
  • 国产linux系统(银河麒麟,统信uos)使用 PageOffice 国产版获取word指定位置的值
    PageOffice国产版:支持信创系统,支持银河麒麟V10和统信UOS,支持X86(intel、兆芯、海光等)、ARM(飞腾、鲲鹏、麒麟等)、龙芯longarch芯片架构。查看本示例演示效果本示例关键代码的编写位置,请参考“开始-快速上手”里您所使用的开发语言框架的最简集成代码注意本文中展示的......
  • 免费word简历 简历制作平台
    分享一个简历制作平台。 免费的word模版 链接地址 https://www.xyjianli.com/https://www.xyjianli.com/listhttps://www.xyjianli.com/wordResume 简历的重要性:开启职业生涯的钥匙在当今竞争激烈的就业市场中,简历作为求职者与雇主之间的第一次正式接触,其重要性不言而喻......
  • SciTech-BigDataAIML-LLM-Transformer Series系列: Word Embedding词嵌入详解: 用Corp
    SciTech-BigDataAIML-LLM-TransformerSeries系列:WordEmbedding词嵌入详解:1.用Corpus预训练出嵌入矩阵\(\largeE\)CorpusCollecting:非常重要的工作先收集一个常用的Corpus(语料库),能保障大多数的word都在corpus.有两个特别重要的作用:VocabularyExtracting:词......
  • word中插入代码块
    一、使用word原生功能......
  • office 交互库 Apache POI
      <dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>${apache.poi.version}</version><exclusions><exclusion><artifactId>common......
  • 最佳阵容问题(数学建模校赛题目)(附带word文档)
    最佳阵容问题(数学建模校赛题目)(附带word文档)......
  • 借助 Aspose.Words,在 Word 文档中创建表格
    Word文档中的表格是一种强大的工具,可用于以清晰、结构化的格式组织和呈现数据。表格由行和列组成,行和列相交形成可包含文本、数字、图像或其他元素的单元格。在本文中,我们将学习如何使用C#以编程方式在Word文档中创建表格。本文通过代码示例展示了在DOCX文件中创建表格的......
  • 【办公软件学习】解决在打开word时,出现 “word 在试图打开文件时遇到错误” 的问题
    1.问题描述:最近在网上查找期刊论文的模板时,发现从期刊官网下载下来的论文格式模板,在本地用word打开时,出现错误,情况如下2.解决办法关闭提示窗口,打开左上角的【文件】按钮点击【选项】按钮点击【信任中心】>>>>【信任中心设置】选择【受保护视图】选项卡,将右侧窗口中......
  • 【办公软件学习】如何将Word格式转换为Markdown格式
    一键!将Word转换为Markdown参考链接1:https://zhuanlan.zhihu.com/p/30891168参考链接2:https://blog.csdn.net/qq15035899256/article/details/125547483参考链接3:https://word2md.com/方法一:Writage+Pandoc—双剑合璧!下载并安装Writage,下载地址:http://www.writage.c......