1. PaddleOCR 简述
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力开发者训练出更好的模型,并应用落地。
PaddleOCR 的主要特性包括:
(1)超轻量模型
(2)通用识别大模型
(3)算法丰富且开源
(4)支持自定义训练
(5)支持C++预测、端侧部署、服务部署
支持多种OCR相关前沿算法,在此基础上打造产业级特色模型PP-OCR和PP-Structure,并打通数据生产、模型训练、压缩、预测部署全流程。
PaddleOCR 全框架示意图:
2. PaddleOCR 应用场景
2.1 通用场景
类别 | 亮点 |
---|---|
高精度中文识别模型SVTR | 比PP-OCRv3识别模型精度高3%,<br />可用于数据挖掘或对预测效率要求不高的场景。 |
手写体识别 | 新增字形支持 |
2.2 制造业
类别 | 亮点 |
---|---|
数码管识别 | 数码管数据合成、漏识别调优 |
液晶屏读数识别 | 检测模型蒸馏、Serving部署 |
包装生产日期 | 点阵字符合成、过曝过暗文字识别 |
PCB文字识别 | 小尺寸文本检测与识别 |
电表识别 | 大分辨率图像检测调优 |
液晶屏缺陷检测 | 非文字字符识别 |
2.3 金融
类别 | 亮点 |
---|---|
表单VQA | 多模态通用表单结构化提取 |
增值税发票 | 关键信息抽取,SER、RE任务训练 |
印章检测与识别 | 端到端弯曲文本识别 |
通用卡证识别 | 通用结构化提取 |
身份证识别 | 结构化提取、图像阴影 |
合同比对 | 密集文本检测、NLP串联 |
2.4 交通
类别 | 亮点 |
---|---|
车牌识别 | 多角度图像、轻量模型、端侧部署 |
驾驶证/行驶证识别 | 敬请期待 |
快递单识别 | 敬请期待 |