首页 > 编程语言 >java解析doc文件

java解析doc文件

时间:2024-12-03 10:43:33浏览次数:5  
标签:titleTreeVO java String doc List JSONObject new 解析 id

依赖
<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.11.2</version>
</dependency>
<dependency>
  <groupId>com.aspose</groupId>
  <artifactId>aspose</artifactId?
  <version>15.8.0<version>
</dependency>

public class Word{
  public TitleTreeVO wordAnalysis(MultipartFile multipartFile) throws IOException{
    byte[] byteArr = multipartFile.getBytes();
    InputStream inputStream = new ByteArrayInputStream(byteArr);
    List<DocumentContentVO> documentContentVOList = new LinkedList<>();
    TitleTreeVO titleTreeVO = new TitleTreeVO();
    try{
      //
      com.aspose.words.Document doc = new com.aspose.words.Document(inputStream);
      //设置转化的格式,HtmlSaveOptions转换为HTML格式;
      HtmlSaveOptions saveOptions = new HtmlSaveOptions();
      saveOptions.setExportImagesAsBase64(false);
      //将所有word中的图片放在临时文件夹中,并将html中的链接替换为临时文件夹中绝对路径
      String property = System.getProperty("java.io.tmpdir");
      saveOptions.setImagesFolder(property);
      org.apache.commons.io.output.ByteArrayOutputStream baos = new ByteArrayOutputStream();
      doc.save(baos, saveOptions);
      String token - DmeTestRequestUtil.getToken();
      //将html文件转化为Document,方便后续使用jsoup的操作
      org.jsoup.nodes.DocumenthtmlDoc = jsoup.parse(baos.toString());
      //设置html中的图片src路径
      this.setImagePath(htmlDoc, token);
      //存储word文档的名称
      String subString = multipartFile.getOriginalFilename().substring(0,multipartFile.getOriginalFilename().lastIndexof("."));
      JSONObject docPram = this.getDocParam(substring);
      String saveDocUrl = "https://dme.cn-south-4.huaweicloud.com/rdm_hwdmeverify_app/publicservices/api/DocumentSave/create";
      //首先根据文档名称生成第一条document的数据,产生的id将在标题实体中进行关联
      String dmeResult = DmeTestRequestUtil.getDmeResult(saveDocUrl,docPram,token);
      JSONObject jsonObject1 = JSONObject.parseObject(dmeResult);
      List data1 = jsonObject1.getObject("data", List.class);
      JSONObject jsonObjectData1 = (JSONObject)data1.get(0);
      String id = jsonObjectData1.getString("id");//文档id
      //存储文档的第一个标题的返回结果,其中包含该节点的id和title
      documentContentVOList = this.exactContentFromHtml(htmlDoc);
      this.dmeSave(documentContentVOList, id, "0", token);//第一个标题的父ID默认为0
    } catch (Exception e){
      e.printStackTrace();
    } finally {
      inputStream.close();
    }
    return titleTreeVO;
    }
  }

  //在解析为html文件的时候需要将图片的地址进行一个替换,由最初的临时文件地址替换为图片
  //设置图片的路径(src)
  private void setImagePath(Document document) throws IOException{
    Element imgs = document.select("img");
    String token = DmeTestRequestUtil.getToken();
    for (Element img : imgs){
      //获取出html中src内的地址值
      String src = img.attr("src");
      //通过地址查到对应的文件
      File file = new File(src);
      FileInputStream input = new FileInputStream(file);
      //将file转化为MultipartFile
      MultipartFile multipartFile = new MockMultipartFile("file",file.getName(), "text/plain", IOUtils.toByteArray(input));
      //该部分主要是第三方接口设置的必须传的参数,在这里就先设置为定值,因为这些不干扰需求结果
      FormVo formVo = new FormVo();
      formVo.setAttributeName("File");
      formVo.setModelName("Document");
      formVo.setApplicationId("-1");
      String uploadImgUrl = "图片作为文件,进行上传";
      String uploadImage = DmeTestRequestUtil.getDmeResultUUploadFile(uploadImgUrl, multipartFile, formVo, token);
      JSONObject uploadImgJs = JSONObject.parseObject(uploadImage);
      List data = uploadImgJs = JSONObject("data", List.class);
      //上传完成后,第三方接口会返回一个文件的id,可以根据这个id进行文件的预览和下载
      String id = (String)data.get(0);
      //上传文件file并返回上传的路径,将路径拼接出来,并替换到html的document中
      String imgPath = "/api/dme-library/LibraryFolder/preview?fileId="+id;
      img.attr("src", imgPath);
      input.close();
      //删除临时文件夹中存储的文件
      file.deleteOnExit();
    }
  }

  //该部分主要是第三方接口在调用时规定该接口的参数格式
  //拼接参数
  private JSONObject getDocParam(String name) {
    Map<String, Object> mapStr = new HashMap<>();
    Map<String, Object> paramMap = new HashMap<>();
    paramMap.put("name", name);
    mapStr.put("params", paramMap);
    JSONObject jsonObject = new JSONObject(mapStr);
    return jsonObject;
  }

  //处理树形结构
  private List<DocumentContentVO> exactContentFromHtml(Document htmlDoc) throws Exception{
    Element eleList = htmlDoc.getElementsByTag("h1");
    if(eleList == null || eleList.size() == 0){
      throw new Exception("上传的文件中不存在一级标题,请检查");
    }
    Element hElement = htmlDoc.selectFirst("h1");//从第一个标题1 开始往下找
    List<DocumentContentVO> allTreeList = new ArrayList<>();
    List<DocumentContentVO> list2 = new ArrayList<>();
    List<DocumentContentVO> list3 = new ArrayList<>();
    List<DocumentContentVO> list4 = new ArrayList<>();
    DocumentContentVO b1Map = new DocumentContentVO();
    DocumentContentVO b2Map = new DocumentContentVO();
    DocumentContentVO b3Map = new DocumentContentVO();
    DocumentContentVO b4Map = new DocumentContentVO();
    DocumentContentVO bMap = b1Map;
    int i = 1;
    b1Map.setTitle(hElement.toString());
    b1Map.setIndex(i);
    allTreeList.add(b1Map);
    while (hElement.nextElementSibling() != null){
      i++;
      hElement = hElement.nextElementSibling();
      String nodeName = hElement.nodeName();
      String s = hElement.tagName();
      if(Objects.equals(nodeName, "h1")){
        b1Map = new DocumentContentVO();
        bMap = b1Map;
        b1Map.setTitle(hElement.toString());
        b1Map.setIndex(i);
        allTreeList.add(b1Map);
        list2 = new ArrayList<>();
      } else if (Objects.equals(nodeName, "h2")){
        b2Map = new DocumentContentVO();
        bMap = b2Map;
        list3 = new ArrayList<>();
        b2Map.setTitle(hElement.toString());
        b2Map.setIndex(i);
        list2.add(b2Map);
        b1Map.setChildList(list2);
      } else if (Objects.equals(nodeName, "h3")){
        b3Map = new DocumentContentVO();
        bMap = b3Map;
        b3Map.setTitle(hElement.toString());
        b3Map.setIndex(i);
        list3.add(b3Map);
        b2Map.setChildList(list3);
      } else if(Objects.equals(nodeName, "h4")){
        b4Map = new DocumentContentVO();
        bMap = b4Map;
        b4Map.setTitle(hElement.toString());
        b4Map.setIndex(i);
        list4.add(b4Map);
        b3Map.setChildList(list4);
      } else {
        bMap.setContent(bMap.getContent() == null ? hElement.toString() : bMap.getContent() + hElement.toString());

      }
    }
    return allTreeList;
  }

  //传入html解析的树和对应文档id 通过递归实现保存
  private String dmeSave(List<DocumentContentVO> treeList, String id , String parentId, String token){
    String dmeResult = null;
    for(DocumentContentVO documentContentVO : treeList) {
      if(documentContentVO != null){
        String title = documentContentVO.getTitle();
        int sort = documentContentVO.getIndex();
        String content = documentContentVO.getContent();
        String url = "创建对应数据的第三方url";
        JSONObject jsonObjectParam = this.paramJoin1(title, id, parentId, sort, content)
        dmeResult = DmeTestRequestUtil.getDmeResult(url, jsonObjectParam, token);
        List data = JSONObject.parseObject(dmeResult).getObject("data", List.class);
        if(data != null && !data.isEmpty()){
          JSONObject jsonObject = (JSONObject)data.get(0);
          String parentIdNext = jsonObject.getString("id");
          if(documentContentVO.getChildList() != null && documentContentVO.getChildList().size() > 0){
            dmeSave(documentContentVO.getChildList(), id , parentIdNext,token);
          }
        }
      }
    }
    return dmeResult;
  }

  //第三方接口规定的参数样式,需要进行拼接
  private JSONObject paramJoin1(String title, String id, String parentId, int sort, String content) {
    Map<String, Object> mapStr = new HashMap<>();
    Map<String, Object> paramMap = new HashMap<>();
    if(id != null){
      paramMap.put("title", title);
      paramMap.put("sort", sort);
      paramMap.put("parentId",parentId);
      paramMap.put("content", content);
      paramMap.put("documentId", id);
    } else {
      paramMap.put("title", title);
    }
    mapStr.put("params", paramMap);
    return JSONObject.parseObject(JSON.toJSONString(mapStr));
  }
}


/**
* 根据documentId查询取该篇文档的标题内容树形结构
*/


//根据documentId查询对应的word文档的树形结构
public List<TitleTreeVO> getTreeCon(JSONObject reqJSON) {
  String id = reqJSON.getString("id");
  List<TitleTreeVO> allTitleByDocId = this.getAllTitleByDocId(id);
  TitleTreeVO titleTreeVO = new TitleTreeVO();
  titleTreeVO.setId("0");
  this.getChild(titleTreeVO, allTitleByDocId);
  return titleTreeVO.getChildList();
}

//根据文档id获取到该文档的所有标题,(此时获取的集合没有父子级关系)
private List<TitleTreeVO> getAllTitleByDocId(String docId){
  String url = "第三方标题表的查询";
  JSONObject docIdParam = getDocIdParam(docId);
  String token = DmeTestRequestUtil.getDmeResult(url,docIdParam,token);
  JSONObject jsonObject = JSONObject.parseObject(dmeResult);
  List date = jsonObject.getObject("data", List.class);
  List<TitleTreeVO> titleList = new ArrayList<>();
  if(data != null && !data.isEmpty()){
    for(Object title : data){
      JSONObject titleJson = (JSONObject)title;
      TitleTreeVO titleTreeVO = new TitleTreeVO();
      titleTreeVO.setContent(titleJson.getString("content"));
      titleTreeVO.setTitle(titleJson.getString("title"));
      titleTreeVO.setId(titleJson.getString("id"));
      titleTreeVO.setIndex(Integer.parseInt(titleJson.getString("sort")));
      titleTreeVO.setDocumentId(titleJson.getString("documentId"));
      titleTreeVO.setParentId(titleJson.getString("parentId"));
      titleList.add(titleTreeVO);
    }
  }
  return titleList;
}

//通过递归获取到各级的子标题和内容
private TitleTreeVO getChild(TitleTreeVO parentTitleTreeVO, List<TitleTreeVO> titleListOld) {
  List<TitleTreeVO> titleList = new ArrayList<>();
  if(titleListOld != null && titleListOld.size() > 0){
    List<TitleTreeVO> titleCollect = titleListOld.stream().filter(e -> e.getParentId().equals(parentTitleTreeVO.getId())).collect(Collectors.toList());
    if(titleCollect.size() > 0){
      for(TitleTreeVO title : titleCollect){
        TitleTreeVO titleTreeVO = new TitleTreeVO();
        titleTreeVO.setIndex(title.getIndex());
        titleTreeVO.setTitle(title.getTitle());
        titleTreeVO.setId(title.getId());
        titleTreeVO.setContent(title.getContent());
        titleTreeVO.setDocumentId(title.getDocumentId());
        titleTreeVO.setParentId(title.getParentId());
        titleList.add(titleTreeVO);
        this.getChild(titleTreeVO, titleListOld);
      }
    }
  }
  List<TitleTreeVO> titleSortList = titleList.stream().sorted(Comparator.comparing(TitleTreeVO::getIndex)).collect(Collectors.toList());
  parentTitleTreeVO.setChildList(titleSortList);
  return parentTitleTreeVO;
}

标签:titleTreeVO,java,String,doc,List,JSONObject,new,解析,id
From: https://www.cnblogs.com/shenhui323/p/18583608

相关文章

  • docker-compose 部署 Redis 的一些警告
    背景内核参数overcommit_memory警告#WARNINGMemoryovercommitmustbeenabled!Withoutit,abackgroundsaveorreplicationmayfailunderlowmemorycondition.Beingdisabled,itcanalsocausefailureswithoutlowmemorycondition,seehttps://github.com......
  • 全方位解析回文字符串的判断方法与实现
    回文字符串是一种特殊的字符串,其特点是正向和反向的读法完全相同。例如:“madam”和“level”是回文,而“hello”不是回文。本文将从简单到复杂,系统讲解多种判断回文字符串的方法,并提供对应的代码实现。一、什么是回文字符串?回文字符串的定义:字符串从左到右与从右到......
  • SpringBoot源码解析(六):打印Banner
    SpringBoot源码系列文章SpringBoot源码解析(一):SpringApplication构造方法SpringBoot源码解析(二):引导上下文DefaultBootstrapContextSpringBoot源码解析(三):启动开始阶段SpringBoot源码解析(四):解析应用参数argsSpringBoot源码解析(五):准备应用环境SpringBoot源码解......
  • 用Java和Vue写的个人股票分析系统
    轻量级股票数据中台简单易用的数据中台,服务于韭皇的可自控应用,方便二次开发;无复杂数据库依赖,启动即可得,追求至简,方便韭皇部署;外部接口可扩展,与核心功能隔离,可快速切换服务使用场景搭建自己的选股平台,分析数据私有化保存,二次开发私有化指标,自定义选股策略;当时编写程序的初......
  • java特殊编码生成
    工作中想要生成一个特殊编码,比如:SZ-2412030009,前面三位是编码固定开头,然后是yyMMdd,最后是当天的个数。期望能够生成一个计算当天task个数,第二天重新计数的一个编码,用于插入到数据库中作为特殊标识。便于用户快速查看任务时间和个数@ResourceprivateRedisTemplat......
  • Java 基础:解锁数组与二维数组
    目录一、Java数组:数据的“有序队列”数组的声明与初始化数组的访问与遍历二、Java二维数组:数据的“矩阵魔方”二维数组的声明与初始化二维数组的访问与遍历三、数组在实际编程中的“高光时刻”四、总结与展望在Java编程中,数组作为一种基础且强大的数据结构,犹......
  • 中药分类管理系统|Java|SSM|VUE| 前后端分离
    【重要1⃣️】前后端源码+万字文档+部署文档【重要2⃣️】正版源码有问题包售后             【包含内容】【一】项目提供非常完整的源码注释【二】相关技术栈文档【三】源码讲解视频                    ......
  • 冷冻仓库管理系统|Java|SSM|VUE| 前后端分离
    【重要1⃣️】前后端源码+万字文档+部署文档【重要2⃣️】正版源码有问题包售后             【包含内容】【一】项目提供非常完整的源码注释【二】相关技术栈文档【三】源码讲解视频                    ......
  • 【全流程】eclipce解决javaweb项目向数据库插入中文字符时乱码问题
    问题背景:使用jdk1.8tomcat9.0.72eclipce2021版本maven2-8-4问题描述:制作javaweb项目时想实现向数据库里增加值,传英文没问题,但是传中文时发现乱码,最开始我以为是传输问题解决过程:建议按流程自己检查一遍1.先检查数据库字母集2,检查eclipce软件设置,按我发的第三篇参考......
  • 高级java每日一道面试题-2024年12月02日-JVM篇-虚拟机为什么使用元空间替换了永久代?
    如果有遗漏,评论区告诉我进行补充面试官:虚拟机为什么使用元空间替换了永久代?我回答:在Java高级面试中,关于虚拟机为何使用元空间替换了永久代的问题,可以从以下几个方面进行详解:一、背景与概念永久代(PermanentGeneration):内存溢出:永久代的大小是固定的,且默认值较小......