【模型训练-1】【Windows-PaddleOCR-ocr模型训练（CPU）】数据标注

时间：2024-07-27 17:53:16浏览次数：19

标签：训练 Windows PaddleOCR 模型 python -- PPOCRLabel 标注

模型训练

使用ocr的使用对硬件设备有比较高的依赖。网上下的模型没有GPU的加持识别效率不高，完成自有模型的训练在相同硬件设备的基准上能大大提高识别效率，加速脚本执行效率。看一组数据：

训练了自己的模型识别耗时1000ms，相同的图片网上随便下的模型4000ms

接下来可以根据下面的操作手册，一步步跟着完成模型数据的准备。当日如果想急着使用，该模块的内容可以后面骨架完成搭建后再去训练自己的模型，可以先使用网上训练好的模型、自带的模型。

一、基础环境准备-制作数据集

python 3.10 --python环境安装不过多赘述

*.先安装PaddlePaddle再安装PaddleOCR
pip install PaddlePaddle
pip install PaddleOCR
*. 安装图形标注工具：pip install PPOCRLabel 或在官网下载
https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7

安装过程如果出现：error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“ 错误。可参考：点击查看解决方案地址

1.1PPOCRLabel 拷贝到操作项目路径

在这里插入图片描述

我这里是新建了个ocr_ui_test的目录，将PPOCRLable拷贝了进来

1.2PPOCRLabel根目录下，终端运行: python PPOCRLabel.py --lang ch

python PPOCRLabel.py --lang ch # 启动【普通模式】，用于打【检测+识别】场景的标签
python PPOCRLabel.py --lang ch --kie True # 启动【KIE 模式】，用于打【检测+识别+关键字提取】场景的标签
运行后，稍等一会儿会有gui窗口出来

这个过程可能需要几分钟的时间，编译这个gui窗口。

二、标注数据准备

2.1图片标注确认

在这里插入图片描述

自动标注完后，检查标注内容是否异常，

标签：训练,Windows,PaddleOCR,模型,python,--,PPOCRLabel,标注
From： https://blog.csdn.net/qq_33442604/article/details/140690422

代码随想录算法训练营第48天 | 序列问题最终篇
115.不同的子序列https://leetcode.cn/problems/distinct-subsequences/description/代码随想录https://programmercarl.com/0115.不同的子序列.html#算法公开课https://leetcode.cn/problems/delete-operation-for-two-strings/description/https://programmercarl.com/05......
基于LSTM的贵州茅台股票价格走势分析及预测模型研究【股票可换】
文章目录==有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主==项目介绍引言研究背景国内外研究现状研究目的研究意义相关技术理论介绍数据采集数据分析与可视化预测模型搭建与结果评估每文一语有需要本项目的代码或文档以及全部资源，或者部署调试可......
15、flask-模型-models-表的操作-分页paginate()
paginate()的属性属性名说明items返回当前页的内容列表has_next是否还有下一页has_prev是否还有上一页next(error_out=False)返回下一页的pagination对象prev(error_out=False)返回上一页的Pagination对象page当前页的页码pages总页数per_p......
代码随想录算法训练营第47天 | 动态序列11：序列专题2
代码随想录算法训练营第天|1143.最长公共子序列https://leetcode.cn/problems/longest-common-subsequence/description/代码随想录https://programmercarl.com/1143.最长公共子序列.html#算法公开课1035.不相交的线https://leetcode.cn/problems/uncrossed-lines/descrip......
YOLOv8-seg——基于自定义数据集训练图像分割模型
目录一、制作分割数据集1标注2json文件转txt文件3数据集划分二、训练图像分割模型1环境搭建2训练网络3预测三、训练结果解读一.制作分割数据集1标注运用labelme软件进行手动标注，得到数据的json格式标注文件。*注意区别于labelimg软件，labelimg软件对每个......
SGLang 大模型推理框架 qwen2部署使用案例；openai接口调用、requests调用
参考：https://github.com/sgl-project/sglang纯python写，号称比vllm、tensorRT还快暂时支持模型安装可以pip、源码、docker安装，这里用的pip注意flashinfer安装最新版，不然会可能出错误ImportError:cannotimportname‘top_k_top_p_sampling_from_probs’from‘fla......
2024AGI面试官常问的问题以及答案（附最新的AI大模型算法面试大厂必考100题）
前言在这个人工智能飞速发展的时代，AI大模型已经成为各行各业创新与变革的重要驱动力。从自动驾驶、医疗诊断到金融分析，AI大模型的应用场景日益广泛，为我们的生活带来了前所未有的便捷。作为一名程序员，了解并掌握AI大模型的相关知识，无疑将大大提升我们的竞争力。在这个充满......
LLM大模型全攻略：一本书精通AI的未来【附赠PDF】
哈喽大家好！最近有粉丝朋友喊我推荐一些大模型的学习书籍，我给大家推荐这么一本书，基于gbt3、gbt4等transform架构的自然语言处理。这是一本对transform工作原理感兴趣的人必读的书籍。亚马逊的评分是九点七分，内行人在睡不着的时候恨不得把全书都背诵完毕。本书的写作目的是......
基于开源大模型的问答系统本地部署实战教程
1.现有大模型产品使用感受在开始教你搭建属于自己的本地大模型之前，先说下自己日常使用大模型的感受。常用的比较好的国外大模型工具，经常会遇到网络卡或者token数量、使用次数限制的问题。而国内的大模型工具虽然不存在网络的问题，但总担心自身数据存......
经典CNN模型（九）：MobileNetV3（PyTorch详细注释版）
一.MobileNetV3神经网络介绍MobileNetV3是MobileNet系列的第三代模型，由Google在2019年提出，旨在进一步优化模型的效率和性能，特别是在移动设备和边缘计算设备上。与前一代相比，MobileNetV3引入了多项改进，包括使用神经架构搜索（NeuralArchitectureSearch,NAS）、自适......