首页 > 其他分享 >PaddleOCR学习笔记2-初步识别服务

PaddleOCR学习笔记2-初步识别服务

时间:2023-06-28 21:46:31浏览次数:52  
标签:PaddleOCR image upload 笔记 padding dict result text 识别

今天初步实现了网页,上传图片,识别显示结果到页面的服务。后续再完善。

采用flask + paddleocr+ bootstrap快速搭建OCR识别服务。

代码结构如下:

 

模板页面代码文件如下:

upload.html :

<!DOCTYPE html>
<html>
<meta charset="utf-8">
<head>
    <title>PandaCodeOCR</title>
    <!--静态加载 样式-->
    <link rel="stylesheet" href={{ url_for('static',filename='bootstrap3/css/bootstrap.min.css') }}></link>
    <style>
        body {
            font-family: Arial, sans-serif;
            margin: 0;
            padding: 0;
        }
        .header {
            background-color: #f0f0f0;
            text-align: center;
            padding: 20px;
        }
        .title {
            font-size: 32px;
            margin-bottom: 10px;
        }

        .menu {
            list-style-type: none;
            margin: 0;
            padding: 0;
            overflow: hidden;
            background-color: #FFDEAD;
			border: 2px solid #DCDCDC;
        }

        .menu li {
            float: left;
			font-size: 24px;
        }

        .menu li a {
            display: block;
            color: #333;
            text-align: center;
            padding: 14px 16px;
            text-decoration: none;
        }

        .menu li a:hover {
            background-color: #ddd;
        }

        .content {
            padding: 20px;
            border: 2px solid blue;
        }
    </style>
</head>
<body>
	<div class="header">
        <div class="title">PandaCodeOCR</div>
    </div>

	<ul class="menu">
        <li><a href="http://localhost:5000/uploader">通用文本识别</a></li>
    </ul>

    <div class="content">
        <!--上传图片文件-->
        <div id="upload_file">
            <form action="http://localhost:5000/uploader" method="POST" enctype="multipart/form-data">
                <div class="form-group">
                    <input type="file" class="form-control" id="upload_file" name="upload_file" placeholder="upload_file">
                </div>
                <div class="form-group">
                    <button type="submit" class="form-control btn-primary">上传图片文件</button>
                </div>
            </form>
        </div>
    </div>
</body>
</html>

 

result.html :

<!DOCTYPE html>
<html>
<meta charset="utf-8">
<head>
    <title>结果</title>
    <!--静态加载 样式-->
    <link rel="stylesheet" href={{ url_for('static',filename='bootstrap3/css/bootstrap.min.css') }}></link>
    <style>
        body {
            font-family: Arial, sans-serif;
            margin: 0;
            padding: 0;
        }
        .header {
            background-color: #f0f0f0;
            text-align: center;
            padding: 20px;
        }
        .title {
            font-size: 32px;
            margin-bottom: 10px;
        }

        .menu {
            list-style-type: none;
            margin: 0;
            padding: 0;
            overflow: hidden;
            background-color: #FFDEAD;
			border: 2px solid #DCDCDC;
        }

        .menu li {
            float: left;
			font-size: 24px;
        }

        .menu li a {
            display: block;
            color: #333;
            text-align: center;
            padding: 14px 16px;
            text-decoration: none;
        }

        .menu li a:hover {
            background-color: #ddd;
        }
    </style>
</head>
<body>
	<div class="header">
        <div class="title">PandaCodeOCR</div>
    </div>

	<ul class="menu">
        <li><a href="http://localhost:5000/uploader">通用文本识别</a></li>
    </ul>

    <div class="row">
            <!--显示上传的图片-->
            <div class="col-md-6" style="border: 2px solid #ddd;">
                <span class="label label-info">上传图片</span>
                <!--静态加载 图片-->
                <img src="{{ url_for('static', filename = result_dict['filename'])}}" alt="show_img"  class="img-responsive">
            </div>

            <div class="col-md-6" style="border: 2px solid #ddd;">
                <!--显示识别结果JSON报文列表-->
                <span class="label label-info">识别结果:</span>
                {% for line_str in result_dict['result'] %}
                    <p class="text-left">{{ line_str['text'] }}</p>
                {% endfor %}
            </div>
    </div>
</body>
</html>
<!--静态加载 script-->
<script src={{ url_for('static',filename='jquery1.3.3/jquery.min.js')}}></script>

  

 主要视图代码文件如下:

views.py :
import json
import os
import time

from . import blue_task
from flask import Flask, render_template, request

from paddleocr import PaddleOCR
from PIL import Image,ImageDraw
import numpy as np

'''
自定义模型测试ocr方法
'''


def test_model_ocr(img):
    # 返回字典结果对象
    result_dict = {'result': []}
    # paddleocr 目前支持的多语言语种可以通过修改lang参数进行切换
    # 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
    # 使用CPU预加载,不用GPU
    # 模型路径下必须包含model和params文件,目前开源的v3版本模型 已经是识别率很高的了
    # 还要更好的就要自己训练模型了。
    ocr = PaddleOCR(det_model_dir='./inference/ch_PP-OCRv3_det_infer/',
                    rec_model_dir='./inference/ch_PP-OCRv3_rec_infer/',
                    cls_model_dir='./inference/ch_ppocr_mobile_v2.0_cls_infer/',
                    use_angle_cls=True, lang="ch", use_gpu=False)
    # 识别图片文件
    result0 = ocr.ocr(img, cls=True)
    result = result0[0]
    for index in range(len(result)):
        line = result[index]

        tmp_dict = {}
        points = line[0]
        text = line[1][0]
        score = line[1][1]
        tmp_dict['points'] = points
        tmp_dict['text'] = text
        tmp_dict['score'] = score

        result_dict['result'].append(tmp_dict)
    return result_dict

# 转换图片
def convert_image(image, threshold=None):
    # 阈值 控制二值化程度,不能超过256,[200, 256]
    # 适当调大阈值,可以提高文本识别率,经过测试有效。
    if threshold is None:
        threshold = 200
    print('threshold : ', threshold)
    # 首先进行图片灰度处理
    image = image.convert("L")
    pixels = image.load()
    # 在进行二值化
    for x in range(image.width):
        for y in range(image.height):
            if pixels[x, y] > threshold:
                pixels[x, y] = 255
            else:
                pixels[x, y] = 0
    return image

@blue_task.route('/upload')
def upload_file():
    return render_template('upload.html')

@blue_task.route('/uploader', methods=['GET', 'POST'])
def uploader():
    if request.method == 'POST':
        #每个上传的文件首先会保存在服务器上的临时位置,然后将其实际保存到它的最终位置。
        filedata = request.files['upload_file']
        upload_filename = filedata.filename
        print(upload_filename)
        #保存文件到指定路径
        #目标文件的名称可以是硬编码的,也可以从 ​request.files[file] ​对象的​ filename ​属性中获取。
        #但是,建议使用 ​secure_filename()​ 函数获取它的安全版本
        img_path = os.path.join('upload/', upload_filename)
        filedata.save(img_path)
        print('file uploaded successfully')

        start = time.time()

        print('=======开始OCR识别======')
        # 打开图片
        img1 = Image.open(img_path)
        # 转换图片, 识别图片文本
        # print('转换图片,阈值=220时,再转换为ndarray数组, 识别图片文本')
        # 转换图片
        img2 = convert_image(img1, 220)
        # Image图像转换为ndarray数组
        img_2 = np.array(img2)
        # 识别图片
        result_dict = test_model_ocr(img_2)

        # 识别时间
        end = time.time()
        recognize_time = int((end - start) * 1000)

        result_dict["filename"] = img_path
        result_dict["recognize_time"] = str(recognize_time)
        result_dict["error_code"] = "000000"
        result_dict["error_msg"] = "识别成功"

        # return json.dumps(result_dict, ensure_ascii=False), {'Content-Type': 'application/json'}
        # render_template方法:渲染模板
        # 参数1: 模板名称  参数n: 传到模板里的数据
        return render_template('result.html', result_dict=result_dict)
    else:
        return render_template('upload.html')

 

启动flask应用,测试结果如下:

 

 

 

标签:PaddleOCR,image,upload,笔记,padding,dict,result,text,识别
From: https://www.cnblogs.com/xh2023/p/17512623.html

相关文章

  • 这份Github标星30K的神仙面试笔记 ,包含了所有Android中高级大厂知识面试题!!!
    作为一个Android程序员,你平时总是陷在业务开发里,每天噼里啪啦忙敲着代码,上到系统开发,下到Bug修改,你感觉自己无所不能。然而偶尔的一次聚会,你听说和自己一起出道的同学早已经年薪50万,而自己却囊中羞涩。于是你也想看看新机会,找个新平台,好好发展。但是面试的时候,当那个笑眯眯的......
  • dsu on tree 学习笔记
    dsuontree学习笔记引入dsu是并查集的缩写,然鹅本算法和并查集没啥关系。当然,dsuontree也有中文名字:树上启发式合并。也就是说,这个算法是用于处理一些树上信息的合并的。dsuontree和莫队一样,都是优雅的暴力。优雅是因为思想很优雅,暴力是因为所有修改都是暴力做的——没......
  • 2023年最新Android Framework源码高级笔记+学习路线图+硬核资料库,跪着啃完了。。。
    虽然疫情已经过去,餐饮、旅游一些实体经济迅速回暖,但是互联网的寒冬却还没有过去,很多大厂都在裁员,裁员比例还挺高,我们一千多人的公司就直接裁掉30%。今年的各大公司基本只有两个目标:一个是营收,那些投入产出比不高的项目或者事情都暂时搁置,可做可不做的就不做;另外一个就是降本增效,通......
  • 软测笔记4-【Linux系统】
    一、Linux系统介绍1.操作系统定义:管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石2.常见操作系统a.桌面操作系统Windows系列LinuxMacOSb.嵌入式操作系统Linuxc.服务器操作系统LinuxUnixWindowsServerd.移动设备操作系统Android(Linux)IOS(Linux)......
  • 【Flutter专题】Android Flutter入门笔记、技术解析与项目实战
    Flutter是一个跨平台、高性能的移动UI框架,其采用Dart语言开发,并使用自己的渲染引擎来绘制UI,保证了自身的高性能,保证了在Android和iOS上UI的一致性。目前Flutter已经支持iOS、Android、Web、Windows、macOS、Linux、Fuchsia(Google新的自研操作系统)等众多平台。与其他跨平......
  • Android知识笔记:记录 2 个 “容易误解” 的Android 知识点
    今天分享两个之前我们可能都搞错的Android知识点,我们还是要追求极致,把不懂的问题搞懂的~1.事件到底是先到DecorView还是先到Window的?有天早上看到事件分发的一个讨论:那么事件到底是先到DecorView还是先到Window(Activity,Dialog)的呢,引发出两个问题:1.touch相关事件在DecorView,Phon......
  • css grid布局(网格布局)笔记
    Grid布局网格布局的基本概念CSS网格布局引入了二维网格布局系统,可用于布局页面主要的区域布局或小型组件。什么是网格?网格是一组相交的水平线和垂直线,它定义了网格的列和行。我们可以将网格元素放置在与这些行和列相关的位置上。网格布局的特点:固定的轨道尺寸或者弹性......
  • 真·随笔(三)《政治学通识》笔记
    读书太少了,还天天鉴证,没底子。看点东西充实一下。中国政治观:中国古代(孔子、韩非)、海国图志、孙中山、当代。孙:管理众人的事便是政治。孔子对曰:“政者,正也。子帅以正,孰敢不正?”……翻译成现代政治学语言,可以表述为“政府是社会的道德榜样”。借助这种视角,大家可以理解目前中国......
  • 【笔记】Inception-v4, Inception-ResNet and the Impact of Residual Connections on
    论文:https://arxiv.org/abs/1602.07261代码:https://github.com/gu-yan/mlAlgorithms/blob/master/inception_impl/Inception_resnet_v2_temsorflow.py先贴出模型:InceptionV4:https://raw.githubusercontent.com/titu1994/Inception-v4/master/Architectures/Inception-v4.pngInecpt......
  • 使用 Transformers 为多语种语音识别任务微调 Whisper 模型
    本文提供了一个使用HuggingFace......