模型训练
使用ocr的使用对硬件设备有比较高的依赖。网上下的模型没有GPU的加持识别效率不高,完成自有模型的训练在相同硬件设备的基准上能大大提高识别效率,加速脚本执行效率。看一组数据:
训练了自己的模型识别耗时1000ms,相同的图片网上随便下的模型4000ms
接下来可以根据下面的操作手册,一步步跟着完成模型数据的准备。当日如果想急着使用,该模块的内容可以后面骨架完成搭建后再去训练自己的模型,可以先使用网上训练好的模型、自带的模型。
一、基础环境准备-制作数据集
python 3.10 --python环境安装不过多赘述
*.先安装PaddlePaddle再安装PaddleOCR
pip install PaddlePaddle
pip install PaddleOCR
*. 安装图形标注工具:pip install PPOCRLabel 或在官网下载
https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7
安装过程如果出现:error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“ 错误。可参考:点击查看解决方案地址
1.1PPOCRLabel 拷贝到操作项目路径
我这里是新建了个ocr_ui_test的目录,将PPOCRLable拷贝了进来
1.2PPOCRLabel根目录下,终端运行: python PPOCRLabel.py --lang ch
python PPOCRLabel.py --lang ch # 启动【普通模式】,用于打【检测+识别】场景的标签
python PPOCRLabel.py --lang ch --kie True # 启动【KIE 模式】,用于打【检测+识别+关键字提取】场景的标签
运行后,稍等一会儿会有gui窗口出来
这个过程可能需要几分钟的时间,编译这个gui窗口。
二、标注数据准备
2.1图片标注确认
标签:训练,Windows,PaddleOCR,模型,python,--,PPOCRLabel,标注 From: https://blog.csdn.net/qq_33442604/article/details/140690422自动标注完后,检查标注内容是否异常,