首页 > 其他分享 >搭建自己的OCR服务,第三步:PPOCRLabel标注工具安装

搭建自己的OCR服务,第三步:PPOCRLabel标注工具安装

时间:2023-06-23 20:56:48浏览次数:36  
标签:第三步 git -- PaddleOCR 识别 PPOCRLabel OCR 标注

一、安装说明

安装好了PaddleOCR后,还需要安装PPOCRLabel这个标注工具,想要自己训练模型的话,有个标注工具会起很大作用。

尤其是PPOCRLabel就是跟PaddleOCR配套的标注工具,同样是开源的。

在下载 PaddleOCR 整个源码中,就有PPOCRLabel安装程序和源代码。

不记得可以重新下载PaddleOCR 整个源码,地址如下:

git clone https://github.com/PaddlePaddle/PaddleOCR.git

 

二、PPOCRLabel简介

PPOCRLabel是一款适用于OCR领域的半自动化图形标注工具,内置PP-OCR模型对数据自动标注和重新识别。

使用Python3和PyQT5编写,支持矩形框标注、表格标注、不规则文本标注、关键信息标注模式,导出格式可直接用于PaddleOCR检测和识别模型的训练。

 

三、安装PPOCRLabel

1,pip 安装

pip install PPOCRLabel -i https://mirror.baidu.com/pypi/simple

2,下载源码

git clone https://github.com/PaddlePaddle/PaddleOCR.git

 

四、使用PPOCRLabel

 

cd  ./git_workspace/PaddleOCR/PPOCRLabel

运行启动命令

1, 选择标签模式来启动 PPOCRLabel
PPOCRLabel --lang ch # 启动【普通模式】,用于打【检测+识别】场景的标签
PPOCRLabel --lang ch --kie True # 启动 【KIE 模式】,用于打【检测+识别+关键字提取】场景的标签

2, 通过Python脚本运行 PPOCRLabel

进入PPOCRLabel源码目录

cd  ./git_workspace/PaddleOCR/PPOCRLabel

运行启动命令,--lang ch  中文模式启动,不加参数则是英文界面和英文识别

python PPOCRLabel.py --lang ch

初次启动会自动下载安装检测+识别的模型

 显示标注工具界面

  3,选择需要标注的图片文件夹目录

4,进行标注

 

PPOCRLabel可以自动标注,在PPOCRLabel自动标注完成后再对标注错误的文字进行修改,点击已识别文字框或者新增“矩形标注”, 可在对应的识别结果区域进行修改。对图片完成标注后点击右下角确认按钮即可保存标注结果。

 文件列表,图片名称左边都打✔了,绿色的才算完成标注。

 

5,导出标注结果

标注结果保存在样本目录下,文件名为Label.txt

 

 

最后,导出标注结果文件可直接用于PaddleOCR检测和识别模型的训练。

 

 

 

标签:第三步,git,--,PaddleOCR,识别,PPOCRLabel,OCR,标注
From: https://www.cnblogs.com/xh2023/p/17500159.html

相关文章

  • 搭建自己的OCR服务,第二步:PaddleOCR环境安装
    PaddleOCR环境安装,遇到了很多问题,根据系统不同问题也不同,不要盲目看别人的教程,有的教程也过时了,根据实际情况自己调整。我这边目前是使用windows10系统+CPU+python3.7搭建。熟悉OCR的人应该知道,最好用GPU,性能差距不是一点点,但是普通人没有那个条件怎么办,只能退而求其次,好在......
  • 搭建自己的OCR服务,第一步:选择合适的开源OCR项目
    一、OCR是什么?光学字符识别(OpticalCharacterRecognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。 二、OCR的基本流程1.图像输入、预处理:不同的图像格式有不同的存储、压缩方式,目......
  • 高精度离线免费 的C#文字识别PaddleOCR库
    随便打开一个MicrosoftVisualStudio,新建一个WinForms项目,从下面列表中随便选择一个NET框架。目标平台要设置成X64,该OCR仅支持64位。 net35;net40;net45;net451;net452;net46;net461;net462;net47;net471;net472;net48;netstandard2.0;netcoreapp3.1;net5.0;net6.0;net7.0......
  • PaddleOCR环境配置踩坑记录
    前言PaddleOCR的效果目前是开源下最好用的,但是配置环境坑很多,虽然已经配好能用,但是再次使用还是会偶尔报bug,故在此记录一些对应的bug便于查阅。bug对应解决方法1、ImportError:libcudart.so.10.2:cannotopensharedobjectfile:Nosuchfileordirectory找到对应conda环......
  • Tesseract-OCR安装及使用
    1、tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/    其中带有dev的为开发版本,作者下载的版本为:tesseract-ocr-setup-3.05.01.exe 2、双击ex进行安装,同意协议并继续。 勾选Additionallanguagedata(download)选项支持识别的语言包。  选择安装目......
  • PaddleOCR 训练工具Win 10下安装步骤
           1、从这里面下载代码包,可能比较慢。     2、进入这个目录:      3、尝试运行E:\>cdE:\paddleOCR\PaddleOCR\PPOCRLabelE:\paddleOCR\PaddleOCR\PPOCRLabel>pythonPPOCRLabel.py--langchTraceback(mostrecentcalllast):......
  • 推荐一个 C#写的 支持OCR的免费通用扫描仪软件
    不管是办公还是家用扫描仪,现在越来越日常化了,人们对扫描仪的使用需求也越来越频繁。NAPS2是一个开源免费软件,体积只有6M不到,支持运行在Windows,Mac和Linux操作系统中,默认就带有简体中文界面,官方默认就提供绿色版,所以解压即可使用,直接可以从官方网站下载:https://www.naps2.co......
  • 推荐一个 C#写的 支持OCR的免费通用扫描仪软件
    NAPS2是一个开源免费软件,体积只有6M不到,支持运行在Windows,Mac和Linux操作系统中,默认就带有简体中文界面,官方默认就提供绿色版,所以解压即可使用,直接可以从官方网站下载:https://www.naps2.com/。NAPS2全名叫做NotAnotherPDFScanner2,中文名叫做【不是另一个PDF扫描仪2】。如......
  • OCR -- 文本识别 -- 实践篇
    OCR--文本识别--理论篇本章将详细介绍如何基于PaddleOCR完成CRNN文本识别模型的搭建、训练、评估和预测。数据集采用icdar2015,其中训练集有4468张,测试集有2077张。CRNN是基于CTC的算法,CRNN是较早被提出也是目前工业界应用较多的方法。主要用于识别规则文本,有效快的预测速......
  • spire.ocr 报错无法加载 DLL"spire_ocrsystem.dll"
    出现这个错误的时候,用以下2个步骤解决:第一,要检查类库的运行平台是否已经改成了x64,因为spire.ocr是基于64位平台的 第二,缺少VC运行库,安装VC运行库即可运行库的下载地址:https://pan.baidu.com/s/1lQwyqaS-Ba2ns0BRT5Z7Eg  提取码:wgja ......