首页 > 其他分享 >基于Tesseract-OCR引擎的图片识别及使用-简易版

基于Tesseract-OCR引擎的图片识别及使用-简易版

时间:2023-10-09 16:58:46浏览次数:32  
标签:Tesseract install -- 简易版 yum 版本 tesseract OCR 安装

图片识别

安装简单的图片识别服务,基于Tesseract-OCR引擎

安装环境

Linux ad3cf730678d 4.9.184-linuxkit #1 SMP Tue Jul 2 22:58:16 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

CentOS Linux release 7.9.2009 (Core)

安装步骤

最简单方法就是yum安装

安装

# 更新源
yum update

# 安装依赖
yum install gcc make
yum install autoconf automake libtool
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel

# 安装ocr
yum install tesseract

安装中文支持

yum install tesseract-langpack-chi_sim

查看版本

[root@test]# tesseract -v

版本3的输出

tesseract 3.04.00
 leptonica-1.72
  libgif 4.1.6(?) : libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

版本4和版本3有些区别,默认安装版本3;版本4安装如下

# 安装依赖,见上面步骤
# 增加源
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
# 安装ocr,如果有版本校验可以加上 --nogpgcheck 或者自己添加公钥
yum install tesseract -y  --nogpgcheck
# 安装支持简体中文
yum install tesseract-langpack-chi-sim*  --nogpgcheck

4版本的输出

[root@test]# tesseract -v
tesseract 4.1.3
 leptonica-1.76.0
  libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

识别效果

测试范围:英文、中文

使用php测试

  • 新建目录 ocr ;
  • composer init 初始化目录
  • composer 安装 thiagoalessio/tesseract_ocr
  • 新建test.php文件,同目录放几张测试图片,如下
|-- composer.json
|-- composer.lock
|-- src
|-- test.php
|-- test_00.png
`-- vendor

  • test.php 测试代码如下
<?php


require 'vendor/autoload.php';

use thiagoalessio\TesseractOCR\TesseractOCR;


try {
    $msg = (new TesseractOCR('test_00.png'))
        ->lang('eng', 'chi_sim')  //语言根据不同版本变动
        ->run();
    if ($msg) {
        echo $msg;
    } else {
        echo '未识别';
    }
} catch (\Exception $e) {
    echo '异常:' . $e->getMessage();
}

测试总结:

  • 纯色背景,打印字体识别较准确,手写效果较差
  • 版本4效果比版本3好
  • 版本3安装过程较顺利

标签:Tesseract,install,--,简易版,yum,版本,tesseract,OCR,安装
From: https://www.cnblogs.com/lpit/p/17752132.html

相关文章

  • ddddocr1.4.8失效的解决方法
    1.问题描述fromseleniumimportwebdriverfromtimeimportsleepdriver=webdriver.Chrome()driver.maximize_window()driver.get('http://124.223.30.31:xxxx/forum.php')driver.find_element('id','ls_username').send_keys('admi......
  • 正确安装PaddleOCR的方法
     paddleocr安装起来太费劲了pipinstallpatch-ngpipinstallpaddleocr --use-pep517  (失败)1.首先去github下载:https://github.com/PaddlePaddle/PaddleOCR,然后找个文件夹解压。(从CSDN中点开链接时会提供加速功能,跳转到了https://gitcode.net/mirrors/paddlepaddle/padd......
  • PaddleOCR安装过程中的ERROR
    PaddleOCR安装过程中的ERROROSError:(External)CUDAerror(222),theprovidedPTXwascompiledwithanunsupportedtoolchain..[Hint:'cudaErrorUnsupportedPtxVersion'.ThisindicatesthattheprovidedPTXwascompiledwithanunsupportedtoolchain.Th......
  • ABBYY FineReader一体化的OCR和PDF应用软件
    ABBYYFineReader 是一款一体化的OCR和PDF软件应用程序,用于在处理文档时提高业务生产力。以人工智能为基础的FineReader提供强大且易用的工具来帮助您获得纸质文档和PDF中的信息。用于编辑、审阅、保护、比对和转换PDF文档与扫描件来自可信任OCR领跑提供商的获奖技术......
  • git config --global core.autocrlf input
    我们一般希望远程仓库中的代码为LF,就用: gitconfig--globalcore.autocrlfinput 就ok了。 gitconfig--globalcore.autocrlfinput这是一个Git的配置命令,它的作用是告诉Git在检出代码时不要自动将行尾转换为CRLF(Windows风格的换行符),而是保留原来的LF(Unix风格的换行符)。......
  • 【AI测试】python文字图像识别tesseract
    [AI测试]python文字图像识别tesseractgithub官网:https://github.com/tesseract-ocr/tesseractpython版本:https://github.com/madmaze/pytesseractOCR,即OpticalCharacterRecognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们......
  • 【AI测试】已落地-python文字图像识别PaddleOCR
    python文字图像识别PaddleOCRPaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力开发者训练出更好的模型,并应用落地。国产之光,百度开源的paddleocr开源地址:https://github.com/PaddlePaddle/PaddleOCR官方电子书:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7......
  • 在线文字识别转换(通用OCR)ocr.wdku.net
    背景医疗保险的电子,一般为PDF版本,并且PDF中的内容全部都是整页整页的图片,导致无法对合同内容进行搜索。 在线文字识别转换(通用OCR)第一步:文件上传第二步:参数选择第三步:转换结果(直接显示) 类似的工具很多,今天分享一个实测10页PDF内容OCR识别,靠谱的。https://ocr.wdku.net......
  • selenium自动化测试+OCR-获取图片页面小说
    随着爬虫技术的发展,反爬虫技术也越来越高。目前有些网站通过自定义字体库的方式实现反爬,主要表现在页面数据显示正常,但是页面获取到的实际数据是别的字符或者是一个编码。这种反爬需要解析网站自己的字体库,对加密字符使用字体库对应字符替换。需要制作字体和基本字体间映射关系。......
  • python+Tesseract OCR实现截屏识别文字
    文章目录一、tesseract-ocr下载安装1、下载2、安装tesseract-ocr(1)选择语言(2)开始安装(3)同意许可(4)选择安装的用户(5)选择附带要安装的语言包(6)安装位置(7)开始安装(8)安装完成3、安装语言包(1)下载安装(2)测试二、python截屏识别文字1、安装必须的包2、截屏识别文字3、准确度参考资料一、tesser......