pdf能看了,拓展的驱动下,想着是否可以ORC呢,识别到文字内容更有帮助。
按网搜的顺序,开始是用pytesseract,pip安装顺利,但运行不了,提示找不到pytesseract,按网上的帮助下载win安装包,选上中文包,再试,可以运行了,就是中文基本识别不了,也不知哪里改善,只得作罢。
换下一个,paddleocr,pip安装报错,按网上的帮助,按顺序requirements.txt装了一遍,卡在lmdb的patch-ng上,再网搜,还网搜,艰难的在硕硕(https://icenturyw.com)这里找到了方法,备之:
git clone https://github.com/Bye-lemon/py-lmdb.git
cd py-lmdb
pip install .
lmdb安装成功后,再如法下载安装paddleocr,
https://github.com/PaddlePaddle/PaddleOCR
一试,中文识别有效,藏在一簇簇的数字中。"pip install . "的用法对我很是新鲜,用python也算久了,不记得有这样的用法。
学习,常人哪有过目不忘的,勤为径,勉为舟,起步之初,把自己当笨鸟看,学了练,练了学,路子渐于熟稔,视野逐于开阔,不求立于名则树于己。
标签:ocr,https,pytesseract,pip,lmdb,com From: https://www.cnblogs.com/qiuwenzheng/p/18242602