首页 > 其他分享 >关于飞浆文字识别技术的运用

关于飞浆文字识别技术的运用

时间:2024-06-22 15:00:50浏览次数:23  
标签:文字 自定义 模型 飞桨 字体 unicode 识别 飞浆

飞桨PaddlePaddle-源于产业实践的开源深度学习平台,有关文章可以在此进行查询

飞桨(PaddlePaddle)是一个由百度开源的深度学习平台,它提供了丰富的机器学习算法库,支持多种深度学习模型的构建、训练和部署。飞桨平台具有以下特点:

  1. 易用性:飞桨提供了简洁的API设计和丰富的文档,使得初学者和研究人员可以快速上手。

  2. 高性能:飞桨针对多种硬件进行了优化,包括CPU、GPU和百度自研的AI加速芯片XPU,能够提供高效的训练和推理速度。

  3. 灵活性:支持静态图和动态图两种编程模式,用户可以根据需要选择使用。

  4. 多平台支持:飞桨支持在多种操作系统上运行,包括Linux、Windows和Mac OS。

  5. 大规模分布式训练:飞桨提供了大规模分布式训练的能力,支持多机多卡训练,适合处理大规模数据集。

  6. 工业级应用:飞桨在百度内部得到了广泛应用,支持了百度的许多核心业务,如搜索、语音识别、图像识别等。

  7. 模型库:提供了大量的预训练模型和模型库,用户可以根据自己的需求选择合适的模型进行迁移学习或微调。

  8. 工具和组件:飞桨提供了包括数据增强、模型压缩、模型可视化等多种工具和组件,帮助用户优化模型性能和部署。

  9. 社区支持:飞桨拥有活跃的开源社区,用户可以在社区中获取帮助、分享经验和参与讨论。

  10. 端到端部署:飞桨支持模型从训练到部署的全流程,提供了模型导出、转换和在不同设备上运行的能力。

  11. 教育和研究:飞桨平台也广泛应用于教育和研究领域,提供了丰富的教程和案例,帮助学生和研究人员学习深度学习

本次使用的知识飞浆的一小部分内容,想要获取更多关于飞浆的知识,可以在官网上进行查看。

准备工作:

        前景介绍:我们在爬取某些网站的时候,爬取下来的文字有时会不显示,或显示不完全。观察字体也不难发现,字体和字体之间会有不同。网站主要运用了自己制作的字体文件font文件,其中的每一串不同的数字对应一个字,这是一种映射的关系。只要将一串数字和字体对应,就可以完成破解,但人工对应比较麻烦,利用文字识别技术,将获取的文字图片与文件名上的一串数字对应就能很方便的破解。

        前景过程:以某茄小说网为例

不难发现,小说的文章字体不一致,有的粗有的细

在进行网页制作的时候,我们可以设置多个字体,并且可以自定义字体只需有字体文件(以woff开头),在第一个字体中没用该字体会使用第二个字体,都没默认使用微软雅黑

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
    <style>
        // 自定义字体
        @font-face {
            font-family: nihao;
            src: url(./字体/e26e946d8b2ccb7.woff2);
        }
        // 所使用的字体
        h1 {
            font-family: fangsong, nihao;
        }
    </style>
</head>
<body>
    <h1>你好世界</h1>
    <h1>终焉</h1>
</body>
</html>

在检查中也会发现,元素中有些字体看不到,观察样式会发现在第一个字体文件是自定义的字体文件。

  在网络检查-字体中将字体文件下载(通过链接就可以下载)

具体流程:

        1,发现该文字是自定义字体

        2,了解font-face在哪里使用

        3, 通过来源面板调试,找到自定义字体

ord()和chr() 

ord() :放回unicode编码

chr() :返回unicode编码的值

将获取到的未解密的字体数据进行遍历,获取每一个字体的unicode 编码

问题就定位到了每一个unicode对应字符

将获取的自定义字体通过字体在线工具进行查看在线字体查看器 - bejson在线工具

当选中一个文字的时候就会发现文字对应的unicode编码(十六进制) 

观察发现文字的名称中的数字部分就是文字的unicode编码(十进制)

所以要建立字典映射来完成字符与unicode一一对应的字典表,故使用飞浆文字识别提高效率

通过js手段将字体文件保存下来

// 编写好以后复制到控制台中
let targets = document.querySelectorAll("[id^=g]")
let nameEle = document.querySelector("#input-name")
targets.forEach(function(item, index){
    if(index >= 2 && index <= 6){
       setTimeout(function(){
        item.click();
        let url = item.toDataURL("image/png");
        let a = document.createElement("a");
        a.href = url;
        a.download = `${nameEle.value.slice(3)}.png`
        a.click();
       }, 100*index)
    }
})

使用飞浆paddleOCR模型 GitHub - PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

下载包
pip install paddlepaddle
pip install paddleocr

注意相关安装看官方说明,本文不再赘述

测试 

在终端中输入

paddleocr.exe --image_dir filepath

此时会下载模型 

运行结束后会显示文字识别结果  

 由此可知该图片文字有92%的概率为“却”

单独使用识别:设置--det 为false

paddleocr.exe --image_dir filepath --det false

 结果为

 在python中编写代码,相关代码可在官方文档中查看

from paddleocr import PaddleOCR, draw_ocr
import os
# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
# 遍历文件

ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
for file_name in os.listdir("../datas/解密图片"):
    img_path = f'../datas/解密图片/{file_name}'
    result = ocr.ocr(img_path, cls=True, det=False)
    for idx in range(len(result)):
        res = result[idx]
        for line in res:
            print(line[0])

最后将识别的文件存入在字典中,完成对字体的破解。

标签:文字,自定义,模型,飞桨,字体,unicode,识别,飞浆
From: https://blog.csdn.net/li2437948121/article/details/139877931

相关文章

  • 基于STM32单片机的智能垃圾桶垃圾分类语音识别控制系统(实物+所有资料)
        随着社会科学技术的飞速发展,人们的生活质量和速度也在不断提高。大多数传统的家用垃圾桶已经过时且缺乏新颖性,并且缺乏人性化设计。使用起来既不方便也不卫生,并且所有的生活垃圾和废物垃圾都被均匀地装载,没有经过仔细的分类。随之而来的是,清洁工的任务量正以几何速......
  • 【猫狗识别系统】图像识别Python+TensorFlow+卷积神经网络算法+人工智能深度学习
    猫狗识别系统。通过TensorFlow搭建MobileNetV2轻量级卷积神经算法网络模型,通过对猫狗的图片数据集进行训练,得到一个进度较高的H5格式的模型文件。然后使用Django框架搭建了一个Web网页端可视化操作界面。实现用户上传一张图片识别其名称。一、前言本研究中,我们开发了一个基于深......
  • 已安装yarn,cmd可以使用,vscode中却无法识别
    使用VScode的终端时,全局安装的插件无法使用,如:yarn、cnpm、vue/cli、live-server、umi等。 解决方法:1.以管理员身份打开vscode2.在vscode终端执行get-ExecutionPolicy ===》查看结果为Restricted3.执行set-ExecutionPolicyRemoteSigned  ===》将ExecutionPolicy设......
  • 文本预处理5-去除文字开头的空格
    1.针对文本开头存在空格的问题进行处理。2.读取txt文档,将处理后的内容写回原文件。#文本预处理5-去除文字开头的空格importosdefleft_align_text(text):#将文本分割成行lines=text.split('\n')#去除每行的前导空格并左对齐aligned_lines=[lin......
  • 文字游侠:一款全新AI写作模型,每天10分钟一键创作爆文!附渠道和玩法教程!
    在当今快节奏的社会中,虽然传统的工作可以满足我们基本的物质需求,但许多人内心深处渴望的是更高层次的精神满足。这就像是我们常说的:“工资可以喂饱肚子,副业可以养活灵魂。”这并不是鼓励大家辞去日常工作,而是提倡在保持稳定收入的同时,开启一项副业来追求个人的兴趣和梦想。毕......
  • 视频字幕提取器软件能提取文字吗?是否支持多种视频格式?
    看网课是现代人们在闲暇之余学习的方式。只是,当你在观看一门复杂的课程时,是否曾因为跟不上讲解速度而感到不适?在回顾一堂英语课时,是否曾因为听不清某个单词而错过了关键点?视频字幕提取功能的出现,正是为了解决这些困扰。它能识别视频中的语音,并将其转换为文字,让你可以随时回......
  • [模式识别复习笔记] 第7章 聚类
    1.聚类给定样本集\(D=\{\bm{x}_1,\bm{x}_2,...,\bm{x}_n\}\),\(\bm{x}_i\in\mathbb{R}^d\)。通过聚类将\(n\)个样本划分为\(k\)个簇划分\(\mathcalC=\{C_1,C_2,...,C_k\}\),使得:\[C_i\capC_j=\emptyset,\\foralli\not=j\且\\......
  • 神经网络与模式识别课程报告-卷积神经网络(CNN)算法的应用
     =======================================================================================完整的神经网络与模式识别课程报告文档下载:https://wenku.baidu.com/view/393fbc7853e2524de518964bcf84b9d528ea2c92?aggId=393fbc7853e2524de518964bcf84b9d528ea2c92&fr=catalogM......
  • [模式识别复习笔记] 第6章 PCA
    1.主成分分析PCAPCA:寻找最能够表示原始数据的投影方法,对数据进行降维,除去冗余的信息。——不考虑类别1.1PCA主要步骤计算散布矩阵\(S\)(或者样本的协方差矩阵)\[S=\sum_{i=1}^{n}(\bm{x}_i-\bm{\mu})(\bm{x}_i-\bm{\mu})^{\text{T}}\]其中\(\bm{\mu}=\frac......
  • PyTorch+CNN进行猫狗识别项目
    任务介绍数据结构为:big_data  ├──train  │ └──cat  │    └──XXX.jpg(每个文件夹含若干张图像)  │ └──dog  │    └──XXX.jpg(每个文件夹含若干张图像)  ├──val  │ └──cat  │......