首页 > 其他分享 >繁体中文与简体中文转换

繁体中文与简体中文转换

时间:2024-01-15 11:58:32浏览次数:21  
标签:转换 String text 繁体中文 pdf new main public 简体中文

使用一些开源的Java库来实现,例如 Apache PDFBox 、 iText。

  1. 使用 Apache PDFBox:

导入 Apache PDFBox 的依赖。在 Maven 或 Gradle 中添加以下依赖项:

<!-- Apache PDFBox -->
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.27</version>
</dependency>

实现代码:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PDFReader {
    public static void main(String[] args) {
        try (PDDocument document = PDDocument.load(new File("D:\test\demo\untitled1\src\main\resources\孤独六讲.pdf"))) {
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);
            System.out.println(toSimple(text));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

如果想使用相对路径,可以用下面的方式:

public class Convert {
    public static void main(String[] args) {
        try (PDDocument document = PDDocument.load(Convert.class.getClassLoader().getResourceAsStream("孤独六讲.pdf"))) {
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);
            System.out.println(toSimple(text));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

}
  1. 使用 iText:

在 Maven 或 Gradle 中添加以下依赖项:

<!-- iText -->
<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itext7-core</artifactId>
    <version>7.1.16</version>
</dependency>

读取PDF文档的文字内容:

import com.itextpdf.kernel.pdf.PdfDocument;
import com.itextpdf.kernel.pdf.PdfReader;
import com.itextpdf.kernel.pdf.canvas.parser.PdfTextExtractor;

public class PDFReader {
    public static void main(String[] args) {
        try (PdfDocument document = new PdfDocument(new PdfReader("D:\test\demo\untitled1\src\main\resources\孤独六讲.pdf"))) {
            StringBuilder text = new StringBuilder();
            for (int pageNum = 1; pageNum <= document.getNumberOfPages(); pageNum++) {
                text.append(PdfTextExtractor.getTextFromPage(document.getPage(pageNum)));
            }
            System.out.println(toSimple(text.toString()));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

标签:转换,String,text,繁体中文,pdf,new,main,public,简体中文
From: https://www.cnblogs.com/Liku-java/p/17965071

相关文章

  • STM32CubeMX教程14 ADC - 多通道DMA转换
    1、准备材料开发板(正点原子stm32f407探索者开发板V2.4)ST-LINK/V2驱动STM32CubeMX软件(Version6.10.0)keilµVision5IDE(MDK-Arm)CH340GWindows系统驱动程序(CH341SER.EXE)XCOMV2.6串口助手3个滑动变阻器2、实验目标使用STM32CubeMX软件配置STM32F407开发板的ADC实现ADC多......
  • 将文本转换为块的属性
    同事提出了这样一个需求,将文本(DBText)转换为块的属性值,我尝试着使用如下的流程实现了该操作,使用Civil3d将文本移动到对应高程,创建Civil3d曲面,提取点(AutoCAD的Point),转换生成几何空间点(CogoPoint),之后通过几何空间点生成属性块。但生成的属性块属性标签无法设置也无法修改,......
  • 如何把将字符串中的数字转换成数字
    主要采用的是库函数的方法,isdigit,stoi.isdigit可以判断单个字符是否是数字,stoi可以将多个字符(多位数,复数)转换成数字。判断数字可以结合isdigit给出对应的函数。点击查看代码boolisNumber(conststd::string&token){//Checkifthetokenisanumber(posit......
  • Text Intelligence - TextIn.com AI时代下的智能文档识别、处理、转换
    一、智能文档处理介绍在AI时代,智能文档处理技术正变得越来越重要。它包括了智能文字识别(OCR)、智能文档信息抽取、文档图像处理以及文档转换等多个方面。这些技术共同构成了现代信息处理的核心,广泛应用于数据分析、自动化办公、数字化存档以及更多其他领域。智能文字识别(OCR)智......
  • Oracle怎样写一个sql,将一个不同的表结构的数据迁移到另一个表中,其中有字段需要有映射
    要将一个表的数据迁移到另一个表,并且需要进行字段映射和值转换,可以使用以下步骤:创建目标表:CREATETABLE目标表名(目标字段1数据类型,目标字段2数据类型,...);插入数据并进行字段映射和值转换:INSERTINTO目标表名(目标字段1,目标字段2,...)SELECTCASEWH......
  • 关于二进制的原码、补码和反码,以及表示范围、常见位运算符和进制转换的理解与简述
    【版权声明】未经博主同意,谢绝转载!(请尊重原创,博主保留追究权)https://www.cnblogs.com/cnb-yuchen/p/17963363出自【进步*于辰的博客】参考笔记一,P3.13、P5.1;笔记三,P43.1/3、P44.1。注:我暂且没有整理关于二进制、原码、补码和反码等概念的理论,本文中的阐述都基于我对相应......
  • 16进制转换为2进制的方法
    ///<summary>/////16转2方法///</summary>///<paramname="hexString"></param>///<returns></returns>staticstringHexString2BinString(stringhexString){......
  • instanceof 和类型转换
    注意点父类引用指向子类的对象把子类转换为父类,向上转型;把父类转换为子类,向下转型;强制转换方便方法的调用,减少重复的代码!简洁封装、继承、多态!抽象类,接口快捷键补充语句  举例转换类型之后使用方法 输出结果 这样改写,输出结果一样 代码//J......
  • 高精度恒流/恒压(CC/CV)原边反馈功率转换器
    一、产品概述PR6214是一款应用于小功率AC/DC充电器和电源适配器的高性能离线式功率开关转换器。PR6214采用PFM工作模式,使用原边反馈架构,无需次级反馈电路,因此省去了光耦和431,应用电路简单,降低了系统的成本和体积,提高了可靠性。芯片内置了高达±5%精度的恒流/恒压(CC/CV)控制电路,输出......
  • BibTex转换为Bibitem格式(适用MDPI和IEEE)
    1.MDPIOverleaf中获取MDPI模板新建bib文件,这里命名为refer.bib 在bib中添加bibtex的引用之后,删除从\begin{thebibliography}{999}到\end{thebibliography}的全部内容 找到前不远处bibliography的内容,去掉注释,换用自己新建的bib文件的名称,注意只是名称,不要带后缀......