首页 > 其他分享 >PDF如何提取文字?OCR技术快速识别提取PDF中的文字内容!这种简单方法一定要知道!

PDF如何提取文字?OCR技术快速识别提取PDF中的文字内容!这种简单方法一定要知道!

时间:2025-01-09 18:00:43浏览次数:3  
标签:文字 图纸 提取 缩放 框选 PDF

在日常工作中,我们常常会遇到PDF文档和图纸中的文字无法直接复制粘贴的问题,尤其是那些文字呈现为打散线条或扫描图片形式的文件,给我们的工作带来诸多不便。不过别担心,PDF快速看图软件的“提取文字”功能(基于OCR技术)就能轻松解决这个难题,下面就为大家详细介绍其使用教程。

一、准备工作

1. 确认软件已升级到v3.11.0.35或更高版本

软件下载链接:https://pdf.everdrawing.com/?from=CSDN

打开软件后,界面如图所示:

二、打开PDF文件

打开一张包含文字内容的PDF格式的图纸,例如“结构施工图设计总说明.pdf”,在PDF快速看图软件中显示如下:

三、缩放图纸

找到待提取文字,将图纸缩放至合适大小(按Ctrl键滑动滚轮缩放,或使用窗口缩放功能),确保待提取文字清晰显示。比如我们要提取关于板配筋的文字说明,调整后效果如下:

四、进入提取文字状态

点击菜单栏的「OCR--提取文字」功能按钮(或按快捷键T),进入提取文字状态。此时会出现“框选提取文档中的中文和英文文字”的提示,界面变为:

五、框选文字

框选待提取文字,框选结束即开始进行文字识别。需注意,框选文字时要完整,不完整的文字将无法识别;同时尽量不要框选图纸元素,否则会对提取文字造成干扰;并且每次只能提取一列文字,多列文字请分别提取。例如框选板配筋相关文字:

六、核对文字

片刻后即可显示提取文字结果,对照着原始图纸,核对提取出的文字,可直接在提取文字结果弹窗中进行修改。如发现错误可及时更正,确保提取内容准确无误。

七、复制文字

点击「复制所有文字」按钮,即可将提取出的文字粘贴到其他文本软件中,方便后续使用。至此,利用PDF快速看图软件进行PDF提取文字(OCR)的操作就完成了。

整体教程动图GIF:

注意事项:

1. 软件虽支持在较小视图下使用「提取文字」功能,但为保证框选文字边界准确,建议将待提取文字缩放至合适大小,以提高文字提取准确率。

2. 框选文字时需完整,不完整文字无法识别;尽量不框选图纸元素;每次只提取一列文字。

3. 提取文字过多可能需等待,选择小范围识别更快。「提取文字」功能默认快捷键为T,也可在快捷键设置中自定义。目前识别语言仅支持简体中文和英文,其他语言暂不支持。

标签:文字,图纸,提取,缩放,框选,PDF
From: https://blog.csdn.net/2401_89921684/article/details/145020280

相关文章

  • 这份4577页的Java面试PDF,让我成功斩获阿里、字节等大厂offer!
       我为大家准备了一份超级全面的Java学习面试笔记,这份电子版笔记涵盖了诸多后端技术栈的面试题和答案,相信可以帮助大家在最短的时间内复习Java后端的大多数技术点和面试题,从而拿到自己心仪的offer。共4577页。整体还是比较清爽的,大家拿到后具体看就知道了。本手册目前......
  • 基于 GEE 使用 MNDWI 和 NDWI 水体指数提取逐年水体
    目录1 数据集和水体指数介绍1.1Landsat8遥感数据信息1.2水体指数的介绍2代码解析3完整代码4运行结果1 数据集和水体指数介绍1.1Landsat8遥感数据信息该代码提取水体使用的是Landsat8的地表反射率产品,主要信息如下:数据集名称:LANDSAT/LC08/C02/T1_L2数据集......
  • 基于 GEE Sentinel-1 数据集提取水体
    目录1水体提取原理2完整代码3运行结果1水体提取原理水体提取是地理信息和遥感技术的关键应用之一,对于多个领域都具有重要的应用价值。它有助于更好地管理水资源,保护环境,减少灾害风险,促进可持续发展,以及确保饮用水供应的安全。水体提取技术的不断发展和改进将进一步......
  • 使用LLaMA2模型从非结构化数据中提取结构化数据
    文章目录概要整体架构流程技术名词解释技术细节小结概要提示:这里可以添加技术概要例如:openAI的GPT大模型的发展历程。整体架构流程提示:这里可以添加技术整体架构例如:在语言模型中,编码器和解码器都是由一个个的Transformer组件拼接在一起形成的。技术......
  • 在 .NET 中使用 Tesseract 识别图片文字
    1.什么是TesseractTesseract是一个强大的字符识别(OCR)工具。它最初由HP发布,现在由Google和学术社区共同维护和开发。Tesseract支持多种语言和格式,能够高效地识别图片中的文字。2.如何安装Tesseract要在.NET项目中使用Tesseract,需要安装相关的NuGet包和基础......
  • Matlab Steger算法提取条纹中心线(亚像素位置)
    文章目录一、简介二、实现代码三、实现效果参考文献一、简介Steger算法是一种常用的图像边缘检测算法,可以用于提取图像中的中心线或边缘信息。它的理论假设是:条纹的亮度是按照高斯分布呈现的,即中心亮两侧渐暗。其计算过程如下所述:1、首先,我们需要计算......
  • Python 手动编写文字识别程序
    在这篇文章中,我们将介绍如何使用Python手动编写一个简单的文字识别程序。我们将利用pytesseract库结合PIL来读取图像中的文本。这个过程涉及图像加载、预处理和文字提取。环境准备确保你已经安装了以下库:bashpipinstallpytesseractpillow此外,确保你已经安装了Tesse......
  • SwiftUI 入门—文字的处理
    SwiftUI是Apple推出的全新框架,用于构建iOS、macOS、watchOS和tvOS的用户界面。在学习SwiftUI时,处理文本是非常基础的一个部分。本篇博客将带你了解如何在SwiftUI中使用Text控件来显示、格式化和自定义文本。目录创建一个新项目在屏幕上显示文字修改文本的......
  • Head First 设计模式(中文版)PDF、EPUB免费下载
    电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍点击原文去下载书籍信息作者:ElisabethFreeman//EricFreeman/BertBates/KathySierra/ElisabethRobson/[美]MaryEleanorFreeman出版社:中国电力出版社译者:O'ReillyTaiwan公司出......
  • Java从入门到精通(第6版)PDF、EPUB免费下载
    适读人群:Java开发程序员配备升级版Java开发资源库,在线大咖课+在线答疑,学习1小时,训练10小时,从入门到项目上线,打造全新学习生态。电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍点击原文去下载书籍信息出版社:清华大学出版社出版年:2021-7-1页数:......