首页 > 其他分享 >开源字符识别 OCR 引擎推荐

开源字符识别 OCR 引擎推荐

时间:2024-01-15 10:36:26浏览次数:36  
标签:字符识别 Tesseract -- 开源 引擎 OCR

开源字符识别 OCR 引擎推荐

sea sea 现代支付 架构部经理  

Tesseract 开源 OCR 引擎(主存储库)

 

github地址

 

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

 

官方网址

 

Tesseract documentation

 

Tesseract 是一个开源的光学字符识别(OCR)引擎,它能够从图像文件中识别和提取文字。Tesseract 由 Ray Smith 在 1985 到 1995 年间在惠普公司(Hewlett-Packard)的布里斯托尔实验室开发。在 2005 年,Tesseract 被惠普开源,并且自 2006 年以来,它一直在由 Google 进行维护和开发。

 

Tesseract 的主要特点包括:

 

1. 多语言支持:Tesseract 支持多种语言,包括但不限于英语、中文、西班牙语、法语、德语等。它通过使用预训练的语言模型来提高识别的准确性。

 

2. 平台兼容性:Tesseract 可以在多种操作系统上运行,包括 Windows、Linux、Mac OS X 等。

 

3. 命令行工具:Tesseract 主要作为一个命令行工具提供,用户可以通过命令行接口与它交互,执行 OCR 任务。

 

4. 易于集成:Tesseract 可以很容易地集成到其他应用程序中,它提供了多种编程语言的接口,如 C/C++、Python、Java 等。

 

5. 开源和免费:Tesseract 是完全开源的,并且可以免费使用。它的源代码托管在 GitHub 上,任何人都可以贡献代码或者修改代码来适应自己的需求。

 

6. 社区支持:Tesseract 拥有一个活跃的社区,用户和开发者可以分享经验、解决问题和改进引擎。

 

7. 培训和自定义:Tesseract 允许用户对自己的数据集进行训练,以创建定制的语言模型和字符识别规则。

 

8. 输出格式:Tesseract 支持多种输出格式,包括纯文本、HTML、PDF、TSV 等,这使得它可以根据不同的需求进行灵活的使用。

 

Tesseract 的最新版本是 4.x,它引入了一些新的功能和改进,包括一个基于神经网络(LSTM)的 OCR 引擎,这个新引擎专注于线条识别,并且提供了更好的字符识别性能。Tesseract 4 也与之前的版本兼容,支持旧的 OCR 引擎模式 (--oem0) 和相关的 traineddata 文件。

 

总的来说,Tesseract 是一个功能强大、灵活且不断进化的 OCR 引擎,它在学术、商业和开源社区中都有广泛的应用。

 

Tesseract 4 添加了一个新的基于神经网络 (LSTM) 的OCR 引擎,该引擎专注于线条识别,但仍然支持 Tesseract 3 的旧版 Tesseract OCR 引擎,该引擎通过识别字符模式进行工作。通过使用旧版 OCR 引擎模式 (--oem 0) 可以实现与 Tesseract 3 的兼容性。它还需要支持旧引擎的经过训练的数据文件,例如来自tessdata存储库的数据文件。

 

Stefan Weil 是现任首席开发人员。Ray Smith 一直是首席开发人员,直到 2018 年。维护者是 Zdenko Podobny。有关贡献者列表,请参阅作者 和 GitHub 的贡献者日志。

 

Tesseract支持 unicode (UTF-8),并且可以“开箱即用”识别100 多种语言。

 

Tesseract 支持多种图像格式,包括 PNG、JPEG 和 TIFF。

 

Tesseract 支持各种输出格式:纯文本、hOCR (HTML)、PDF、仅不可见文本的 PDF、TSV 和 ALTO。

 

您应该注意,在许多情况下,为了获得更好的 OCR 结果,您需要提高提供给 Tesseract 的图像质量。

 

该项目不包括 GUI 应用程序。如果您需要,请参阅3rdParty文档。

 

可以训练Tesseract识别其他语言。有关更多信息,请参阅Tesseract 培训。

 

安装

您可以通过预构建的二进制包安装 Tesseract 或从源代码构建它。

 

从源代码构建 Tesseract 需要具有良好 C++17 支持的 C++ 编译器。

 

运行

基本命令行用法:

 

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

有关各种命令行选项的更多信息,请使用tesseract --help或man tesseract。

 

示例可以在文档中找到。

标签:字符识别,Tesseract,--,开源,引擎,OCR
From: https://www.cnblogs.com/sexintercourse/p/17964871

相关文章

  • Terraform 开源分支 OpenTofu 正式发布
    Terraform开源分支OpenTofu正式发布来源:OSCHINA编辑: 白开水不加糖2024-01-1111:03:34 02023大语言模型技术报告.pdf 经过五十多名开发人员历时四个月的开发,Terraform开源分支OpenTofu现已正式发布,可供生产使用,为Terraform用户提供了一条直接的迁......
  • 使用Tesseract做文字识别(OCR)
    使用Tesseract做文字识别(OCR)小糊糊​哈尔滨工业大学计算机科学与技术硕士 39人赞同了该文章前言OCR(opticalcharacterrecognition,光学字符识别)是指直接将包含文本的图像识别为计算机文字(计算机黑白点阵)的技术。图像中的文本一般为印刷体文本。T......
  • 开源的代名词「GitHub 热点速览」
    当开发者谈论开源时,通常会想到GitHub,它不仅仅是一个代码托管平台,更是一个汇聚了全球开发者的社交中心。过去,开发者发布一款软件后,都是在自己的小圈子里默默努力和交流,现在通过GitHub平台可以方便地与全球的开发者分享、交流和协作。贡献者在这里展示自己的才华,追随者在这里寻......
  • 【论文阅读笔记】【OCR-End2End】 TextFormer: A Query-based End-to-End Text Spotte
    TextFormerarXiv:2306.03377读论文思考的问题论文试图解决什么问题?写作背景是什么?问题:如何设计一种更好的query-based的方法来同时实现端到端的场景文本检测能否利用弱监督数据(只有文本)进一步增强端到端模型的文本识别能力?背景:目前的端到端场景文本检测识别......
  • Solo 开发者周刊 (第 1 期):开源产品的探索之路
    产品推荐如何着手将一个简单的想法转变为一个成熟的开源项目,以及如何在此过程中利用和贡献于开源社区。同时使其达到商业化的同时,保持原有的开源精神。这些是我们需要探索的。Spug开源运维平台Spug是面向中小型企业设计的轻量级无Agent的自动化运维平台,整合了主机管理、主......
  • 50个常用的Qt开源库
    1.Qwt(https://qwt.sf.net):Qwt是一个基于Qt的数据可视化库,提供了绘制曲线、图表、仪表盘等功能。2.QJson(https://qjson.sourceforge.net):QJson是一个用于JSON数据解析和生成的库,使Qt应用程序能够方便地处理JSON格式的数据。3.QCustomPlot(https://www.qcustomplot.co......
  • VB6的OfficeMenu控件 - 开源研究系列文章
          这次将原来VB6中喜欢和使用到的OfficeMenu的控件做一个使用介绍。      上次介绍了VB6中的控件引擎,但是那个只针对基本的控件,这个OfficeMenu控件在当时是收费的,笔者找度娘好不容易才下载到一个免费版本,而且使用起来也非常的方便,在当时那个年代是笔者对于VB6......
  • 我开源了一个 Go 学习仓库
    目录前言一、综述1.1HelloWord1.2命令行参数1.3查找重复行1.4GIF动画1.5获取一个URL1.6并发获取多个URL1.7实现一个Web服务器1.8杂项二、程序结构2.1名字2.2声明2.3变量2.4赋值2.5类型声明2.6包和文件2.7作用域三、基本数据类型3.1整数3.2浮点数3.3复数3.4......
  • [Bookmark]--立创开源
    开发板立创·GD32E230最小系统板无人机SuperUAVRGB征集令|物联网8x8炫彩随心屏"像素盒子"触摸屏LED灯板征集令|LED时钟小小光立方局域网控制的旋转LEDLINK自制ST-LINKV2-1(开源版本)/****************************************************//(C)COPYLEFT2018Mer......
  • Excelize 开源基础库入选 2023 开源创新榜「优秀开源项目 」
    近日,由中国科协科学技术传播中心、中国计算机学会、中国通信学会、中国科学院软件研究所共同主办,CSDN承办的2023开源创新榜专家评审会在国家科技传播中心成功举办。Excelize电子表格文档开源基础库入选“2023开源创新榜”优秀开源项目。评审委员会主任王怀民院士指出,人类文明和......