首页 > 其他分享 >试了下ocr

试了下ocr

时间:2024-06-11 19:58:48浏览次数:17  
标签:ocr https pytesseract pip lmdb com

pdf能看了,拓展的驱动下,想着是否可以ORC呢,识别到文字内容更有帮助。
按网搜的顺序,开始是用pytesseract,pip安装顺利,但运行不了,提示找不到pytesseract,按网上的帮助下载win安装包,选上中文包,再试,可以运行了,就是中文基本识别不了,也不知哪里改善,只得作罢。
换下一个,paddleocr,pip安装报错,按网上的帮助,按顺序requirements.txt装了一遍,卡在lmdb的patch-ng上,再网搜,还网搜,艰难的在硕硕(https://icenturyw.com)这里找到了方法,备之:

git clone https://github.com/Bye-lemon/py-lmdb.git
cd py-lmdb
pip install .

lmdb安装成功后,再如法下载安装paddleocr,

https://github.com/PaddlePaddle/PaddleOCR

一试,中文识别有效,藏在一簇簇的数字中。"pip install . "的用法对我很是新鲜,用python也算久了,不记得有这样的用法。

学习,常人哪有过目不忘的,勤为径,勉为舟,起步之初,把自己当笨鸟看,学了练,练了学,路子渐于熟稔,视野逐于开阔,不求立于名则树于己。

标签:ocr,https,pytesseract,pip,lmdb,com
From: https://www.cnblogs.com/qiuwenzheng/p/18242602

相关文章

  • Eurocrypt 2024 's Accepted Papers
    AcceptedPapers  已接受的论文Thesepapersarelistedinorderofsubmission.这些论文按提交顺序排列。Twinkle:ThresholdSignaturesfromDDHwithFullAdaptiveSecurity闪烁:具有完全自适应安全性的DDH阈值签名RenasBacho,JulianLoss,StefanoTessaro,Bened......
  • Python爬虫-字体加密 ddddocr FontCreator
    目录应用场景解决思路1.下载字体文件2.分析3.代码实现版本1版本2应用场景在爬取网页数据时我们有时可能会遇到如下面的情况,价格数字在网页上能正常显示,但在控制面板查看时却是显示空白,我们通过requests等库爬取该页面后得到的数据也是无法显示出来。解决思路1.......
  • 《维汉翻译通》App的维吾尔文OCR文字识别技术真厉害,准确率高、操作简单、支持识别文档
    《维汉翻译通》App的拍照识别文字功能(OCR)拥有以下优势,确保了高准确率的识别体验:先进的OCR技术:应用了最新的光学字符识别技术,能够准确识别各种字体和大小的文本。支持多种语言:特别针对维吾尔语和汉语进行了优化,确保两种语言的文本都能被快速准确地识别。智能图像处理:在识别......
  • 《维汉翻译通》App全新升级:维吾尔语短文本翻译、汉语拼音标注、维语词典、谚语格言名
    2024年《维汉翻译通》App迎来重大更新!这次升级不仅带来了全新的功能,还为所有用户提供了更加便捷的服务体验。以下是我们新版本的主要亮点:维语短文本翻译免费啦!我们深知语言是沟通的桥梁,为了让更多人能够跨越语言的障碍,我们决定将维吾尔语短文本翻译服务完全免费开放给所有用......
  • Navi日语社App一款支持日文OCR文字识别提取的应用,功能丰富,支持日语翻译、语音翻译、日
    如果你正在寻找一款简单好用、功能丰富的日文OCR识别软件,那么推荐你试试《Navi日语社》App,在安卓和苹果手机上,很多应用都支持免费的日语翻译功能,但是支持日文OCR文字识别的软件并不多,针对这一痛点,准橙翻译开发上线了《Navi日语社》App,一款支持日文OCR识别提取文字的移动软件,识......
  • 老挝语翻译通App中国人出门在外都在用的老挝语翻译工具,支持老挝文OCR识别、文字转语音
    老挝语翻译通App,一款更加符合中国人用语习惯的翻译工具,在国内外都能正常使用的翻译器。当大家选择去东南亚国家旅游、GAP的时候,老挝这个国家是值得一去的,可以让大家感受到另一番风情。但是,在去之前,需要做一些准备:衣食住行都要提前规划和准备好,而贯穿整个旅途的另一个容易被......
  • OCR表格识别
    转载:https://openi.pcl.ac.cn/PaddlePaddle/PaddleOCR/src/branch/release/2.7/doc/doc_ch/table_recognition.md#表格识别本文提供了PaddleOCR表格识别模型的全流程指南,包括数据准备、模型训练、调优、评估、预测,各个阶段的详细说明:-[1.数据准备](#1-数据准备)-[1.1......
  • C# PaddleOCR 单字识别效果
    C#PaddleOCR 单字识别效果效果说明        根据《百度办公文档识别C++离线SDKV1.2用户接入文档.pdf》,使用C++封装DLL,C#调用。背景        为使客户、第三方开发者等能够更快速、方便的接入使用百度办公文档识别SDK、促进百度OCR产品赋能更多客户,......
  • 一个简单的OCR识别引擎,但是很强大,支持80+的语言,Star 22.3K+!(本文附带一个简单的开发教
    OCR(OpticalCharacterRecognition,光学字符识别)已经融入到我们日常生活和工作中,有可能你没感觉到,但是你一定用到过,比如常见的一些场景:文档数据存储:例如,将纸质书籍、报纸、杂志或其他文件转换为可编辑的文本格式,便于存储和搜索;自动数据录入:比如在报销发票、整理收据时。利......
  • PHP发票真假API在线文档、票据ocr识别、医疗票据查验
    翔云人工智能开放平台提供详细的发票查验API在线开发文档,不仅包含了PHP语言,还包含Java、python、go、C#、C++等众多的主流开发语言,便于有需要的用户快速的将发票查验功能集成到自己的系统或者应用中,极大的缩短了企业的开发时间和开发成本。翔云发票识别接口,运用自主OCR技术......