基于Tesseract-OCR引擎的图片识别及使用-简易版

时间：2023-10-09 16:58:46浏览次数：44

标签：Tesseract install -- 简易版 yum 版本 tesseract OCR 安装

图片识别

安装简单的图片识别服务，基于Tesseract-OCR引擎

安装环境

Linux ad3cf730678d 4.9.184-linuxkit #1 SMP Tue Jul 2 22:58:16 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

CentOS Linux release 7.9.2009 (Core)

安装步骤

最简单方法就是yum安装

安装

# 更新源
yum update

# 安装依赖
yum install gcc make
yum install autoconf automake libtool
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel

# 安装ocr
yum install tesseract

安装中文支持

yum install tesseract-langpack-chi_sim

查看版本

[root@test]# tesseract -v

版本3的输出

tesseract 3.04.00
 leptonica-1.72
  libgif 4.1.6(?) : libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

版本4和版本3有些区别，默认安装版本3；版本4安装如下

# 安装依赖，见上面步骤
# 增加源
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
# 安装ocr，如果有版本校验可以加上 --nogpgcheck 或者自己添加公钥
yum install tesseract -y  --nogpgcheck
# 安装支持简体中文
yum install tesseract-langpack-chi-sim*  --nogpgcheck

4版本的输出

[root@test]# tesseract -v
tesseract 4.1.3
 leptonica-1.76.0
  libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

识别效果

测试范围：英文、中文

使用php测试

新建目录 ocr ;
composer init 初始化目录
composer 安装 thiagoalessio/tesseract_ocr
新建test.php文件，同目录放几张测试图片，如下

|-- composer.json
|-- composer.lock
|-- src
|-- test.php
|-- test_00.png
`-- vendor

test.php 测试代码如下

<?php


require 'vendor/autoload.php';

use thiagoalessio\TesseractOCR\TesseractOCR;


try {
    $msg = (new TesseractOCR('test_00.png'))
        ->lang('eng', 'chi_sim')  //语言根据不同版本变动
        ->run();
    if ($msg) {
        echo $msg;
    } else {
        echo '未识别';
    }
} catch (\Exception $e) {
    echo '异常:' . $e->getMessage();
}

测试总结：

纯色背景，打印字体识别较准确，手写效果较差
版本4效果比版本3好
版本3安装过程较顺利

标签：Tesseract,install,--,简易版,yum,版本,tesseract,OCR,安装
From： https://www.cnblogs.com/lpit/p/17752132.html

ddddocr1.4.8失效的解决方法
1.问题描述fromseleniumimportwebdriverfromtimeimportsleepdriver=webdriver.Chrome()driver.maximize_window()driver.get('http://124.223.30.31:xxxx/forum.php')driver.find_element('id','ls_username').send_keys('admi......
正确安装PaddleOCR的方法
paddleocr安装起来太费劲了pipinstallpatch-ngpipinstallpaddleocr --use-pep517 (失败）1.首先去github下载：https://github.com/PaddlePaddle/PaddleOCR，然后找个文件夹解压。（从CSDN中点开链接时会提供加速功能，跳转到了https://gitcode.net/mirrors/paddlepaddle/padd......
PaddleOCR安装过程中的ERROR
PaddleOCR安装过程中的ERROROSError:(External)CUDAerror(222),theprovidedPTXwascompiledwithanunsupportedtoolchain..[Hint:'cudaErrorUnsupportedPtxVersion'.ThisindicatesthattheprovidedPTXwascompiledwithanunsupportedtoolchain.Th......
ABBYY FineReader一体化的OCR和PDF应用软件
ABBYYFineReader 是一款一体化的OCR和PDF软件应用程序，用于在处理文档时提高业务生产力。以人工智能为基础的FineReader提供强大且易用的工具来帮助您获得纸质文档和PDF中的信息。用于编辑、审阅、保护、比对和转换PDF文档与扫描件来自可信任OCR领跑提供商的获奖技术......
git config --global core.autocrlf input
我们一般希望远程仓库中的代码为LF，就用： gitconfig--globalcore.autocrlfinput 就ok了。 gitconfig--globalcore.autocrlfinput这是一个Git的配置命令，它的作用是告诉Git在检出代码时不要自动将行尾转换为CRLF（Windows风格的换行符），而是保留原来的LF（Unix风格的换行符）。......
【AI测试】python文字图像识别tesseract
[AI测试]python文字图像识别tesseractgithub官网：https://github.com/tesseract-ocr/tesseractpython版本：https://github.com/madmaze/pytesseractOCR，即OpticalCharacterRecognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们......
【AI测试】已落地-python文字图像识别PaddleOCR
python文字图像识别PaddleOCRPaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力开发者训练出更好的模型，并应用落地。国产之光，百度开源的paddleocr开源地址：https://github.com/PaddlePaddle/PaddleOCR官方电子书：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7......
在线文字识别转换（通用OCR）ocr.wdku.net
背景医疗保险的电子，一般为PDF版本，并且PDF中的内容全部都是整页整页的图片，导致无法对合同内容进行搜索。在线文字识别转换（通用OCR）第一步：文件上传第二步：参数选择第三步：转换结果（直接显示）类似的工具很多，今天分享一个实测10页PDF内容OCR识别，靠谱的。https://ocr.wdku.net......
selenium自动化测试+OCR-获取图片页面小说
随着爬虫技术的发展，反爬虫技术也越来越高。目前有些网站通过自定义字体库的方式实现反爬，主要表现在页面数据显示正常，但是页面获取到的实际数据是别的字符或者是一个编码。这种反爬需要解析网站自己的字体库，对加密字符使用字体库对应字符替换。需要制作字体和基本字体间映射关系。......
python+Tesseract OCR实现截屏识别文字
文章目录一、tesseract-ocr下载安装1、下载2、安装tesseract-ocr（1）选择语言（2）开始安装（3）同意许可（4）选择安装的用户（5）选择附带要安装的语言包（6）安装位置（7）开始安装（8）安装完成3、安装语言包（1）下载安装（2）测试二、python截屏识别文字1、安装必须的包2、截屏识别文字3、准确度参考资料一、tesser......

基于Tesseract-OCR引擎的图片识别及使用-简易版

图片识别

安装环境

安装步骤

识别效果

相关文章

赞助商

阅读排行