首页 > 其他分享 >kindle电子书_越狱后koreader中自带OCR功能的设置

kindle电子书_越狱后koreader中自带OCR功能的设置

时间:2024-03-26 21:45:54浏览次数:41  
标签:traineddata github Tesseract koreader KOReader kindle OCR

KOReader一直以PDF阅读的优秀体验而闻名。然而,在尚未配置的情况下阅读图片类PDF在KOReader中长按屏幕无法像原生系统阅读正常文档一样划线取词,并且此时KOReader会弹出一个弹窗:

没有OCR识别结果,或没有语言数
据。
KOReader有一个内置的OCR引擎用于识别扫描的PDF和DjVu文档中的文字。为了在扫描的页面中使用OCR,
您需要为您的文档语言安装tesseract
训练数据。
您可以从https://tesseract-
ocr.github.io/tessdoc/Data-Files下
载3.04版本的语言数据文件。
复制Tesseract 3.04的语言数据文件
(比如适用于英语的eng.traineddata
和适用于西班牙语的
spa.traineddata)到koreader/data/
tessdata文件夹内

我翻遍了github上tessdoc这个项目,最终找到了该作者开的另一存放traineddata的项目:traineddata3.0.4,似乎无法下载单个文件,整个打包下载下来了。里边我就取了中文的和英语的文件,中文简体chi_tra.traineddata,中文繁体chi_tra.traineddata,英文eng.traineddata

放进弹窗里给出的那个目录:koreader/data/tessdata
重启KOReader,打开PDF,点击底栏小齿轮图标,文档语言改为Chinese,开启强制OCR
按住要识别的文字,略作等待,得到一串中文或者英文。

说实话识别得不咋地,可用性堪忧。而且光识别出来也没啥作用,用作添加笔记功能的话也许还行,想查词就得另外再加词典了。我原以为这些操作已经够烦人了的,没想到搜索一番之后发现,只有中文和英语可以直接加OCR训练数据和词典用,其他语言不仅要找到训练数据,还得修改persistent.defaults.lua,这是我在mobileread上看到的。KOReader的官网也有相关说明。

帖点东西上来,为有需要的人减少一点搜索的麻烦:

KOReader官方对于OCR功能的介绍 OCR (Optical Character Recognition) is the process of extracting text from images into machine readable format. In KOReader context, it is generally used for extracting text from scanned book pages in PDF files. KOReader relies on Tesseract Open Source OCR Engine for this task (https://github.com/tesseract-ocr/tessdoc).

In order to use this feature you need to:

  1. Install Tesseract language data to your KOReader
  2. Add newly installed languages to koreader/defaults.lua configuration file (necessary only if your language is other than English or Chinese)
  3. INFO Buttons on OCR menu will not function until you install the necessary Tesseract files. Details of this process can be read in the related wiki page: https://github.com/koreader/koreader/wiki/Dictionary-support#dictionary-lookups-in-scanned-pages

OCR(光学字符识别)是将图像中的文本提取为机器可读格式的过程。在KOReader上下文中,它通常用于从PDF文件中的扫描书籍页面中提取文本。KOReader依赖Tesseract开源OCR引擎完成此任务(https://github.com/tesseract-ocr/tessdoc)
要使用此功能,您需要:

  1. 将Tesseract语言数据安装到您的KOReader
  2. 将新安装的语言添加到koreader/defaults.lua配置文件中(仅当您的语言不是英语或中文时才需要)
    在安装必要的Tesseract文件之前,OCR菜单上的INFO按钮将无法工作。此过程的详细信息可以在相关的wiki页面中阅读:https://github.com/koreader/koreader/wiki/Dictionary-support#dictionary-在扫描的页面中查找

koreader官方使用文档
mobileread论坛上的答疑帖
traineddata3.0.4
downgit:github下载加速

标签:traineddata,github,Tesseract,koreader,KOReader,kindle,OCR
From: https://www.cnblogs.com/gardenialyx/p/18097426

相关文章

  • 如何判断某个发票扫描OCR软件好不好?
    发票扫描OCR(OpticalCharacterRecognition)是一种将纸质发票上的文字、数字等信息转化为可编辑的文本格式的技术。在现代企业中,随着数字化转型的推进,发票扫描OCR技术变得越来越重要。然而,面对市场上众多的发票扫描OCR产品,如何判断其好用不好用呢?本文将从以下几个方面进行探讨。......
  • 使用tencentcloud-sdk-php库通用印刷体识别GeneralBasicOCR文字识别PHP代码完整版
    使用tencentcloud-sdk-php进行通用印刷体识别(GeneralBasicOCR),您需要先确保已经按照上述步骤安装了该SDK,并在腾讯云控制台上获取了您的SecretId和SecretKey。代码开始:<?phprequire'vendor/autoload.php';//根据您的项目结构引入autoload文件useTencentCloud\Comm......
  • 身份证ocr,python身份证识别ocr接口代码,实名认证接口
    基于文字识别技术产物的身份证识别接口现已成熟,通过手机、电脑或者摄像头终端设备拍照或者上传身份证图片即可实现身份证照片上文字的识别,从而提取到身份证信息。翔云除了提供身份证识别接口外,还完善了实名认证接口方案,搭配翔云身份证实名认证接口可谓是效率翻倍。身份证......
  • 身份证文字识别ocr免费-身份证实名认证接口-护照识别-Java调用代码
    文字识别技术是针对图片上的文字进行提取,免去人们手动输入的繁琐。针对证件,翔云提供了身份证识别接口、身份证实名认证接口、护照识别接口,身份证识别接口自动提取身份证信息、身份证实名认证接口实时联网查验身份证的真伪。以身份证识别接口Java语言代码为例,欢迎免费体验:pac......
  • JAVA接口代码-从技术到创新、发票ocr、发票查验接口、发票识别
    财政类票据ocr、增值税发票识别、全电票ocr接口是一项重要的技术创新,在数字化、信息化高速发展的商业环境中发挥着至关重要的作用。通过集成翔云API,可快速实现发票信息的自动化识别提取与真伪查验,提升了财务管理效率。就发票识别接口,提供Java语言代码,有需要的人员可在线......
  • paddleocr 在docker环境下部署
    paddleocr在docker环境下部署第一步查看cuda的版本nvcc-V,我的是11.2;nvidia-smi对应的cudaversion是11.6,所以采用了registry.baidubce.com/paddlepaddle/paddle:latest-dev-cuda11.6-cudnn8.4-trt8.4-gcc82作为基础镜像Docker镜像源选择,DockerHub地址Dockerfile......
  • 开源ocr 识别手机截图定位
    #coding:utf-8#importuiautomator2asu2importtimefromtqdmimporttqdmfromloguruimportloggerfromcnocrimportCnOcrdefcalculate_centroid(points):iflen(points)==0:returnNonenum_points=len(points)sum_x=sum(poi......
  • 一点奇怪的想法——paddleocr复现使用
    三个命令行安装paddleocrcondacreate-npaddle02python=3.8activetepaddle02pipinstallpaddlepaddle-ihttps://mirror.baidu.com/pypi/simplepipinstallpaddleocr-ihttps://mirror.baidu.com/pypi/simple大部分的应该是可以跑的测试代码#第一个简单测试的......
  • OCR-free相关论文梳理
    引言通用文档理解,是OCR任务的终极目标。现阶段的OCR各种垂类任务都是通用文档理解任务的子集。这感觉就像我们一下子做不到通用文档理解,退而求其次,先做各种垂类任务。现阶段,Transformer技术的发展,让通用文档理解任务变得不再是那么遥不可及,伴随而来的是出现了很多OCR-free的工作......
  • PaddleOCR手写文字识别模型训练(摘抄所得,非原创)
    1.安装环境#首先git官方的PaddleOCR项目,安装需要的依赖gitclonehttps://github.com/PaddlePaddle/PaddleOCR.gitcdPaddleOCRpipinstall-rrequirements.txt2.数据准备本项目使用公开的手写文本识别数据集,包含ChineseOCR,中科院自动化研究所-手写中文数据集CASIA-......