KOReader一直以PDF阅读的优秀体验而闻名。然而,在尚未配置的情况下阅读图片类PDF在KOReader中长按屏幕无法像原生系统阅读正常文档一样划线取词,并且此时KOReader会弹出一个弹窗:
没有OCR识别结果,或没有语言数
据。
KOReader有一个内置的OCR引擎用于识别扫描的PDF和DjVu文档中的文字。为了在扫描的页面中使用OCR,
您需要为您的文档语言安装tesseract
训练数据。
您可以从https://tesseract-
ocr.github.io/tessdoc/Data-Files下
载3.04版本的语言数据文件。
复制Tesseract 3.04的语言数据文件
(比如适用于英语的eng.traineddata
和适用于西班牙语的
spa.traineddata)到koreader/data/
tessdata文件夹内
我翻遍了github上tessdoc这个项目,最终找到了该作者开的另一存放traineddata的项目:traineddata3.0.4,似乎无法下载单个文件,整个打包下载下来了。里边我就取了中文的和英语的文件,中文简体chi_tra.traineddata,中文繁体chi_tra.traineddata,英文eng.traineddata
放进弹窗里给出的那个目录:koreader/data/tessdata
重启KOReader,打开PDF,点击底栏小齿轮图标,文档语言改为Chinese,开启强制OCR
按住要识别的文字,略作等待,得到一串中文或者英文。
说实话识别得不咋地,可用性堪忧。而且光识别出来也没啥作用,用作添加笔记功能的话也许还行,想查词就得另外再加词典了。我原以为这些操作已经够烦人了的,没想到搜索一番之后发现,只有中文和英语可以直接加OCR训练数据和词典用,其他语言不仅要找到训练数据,还得修改persistent.defaults.lua,这是我在mobileread上看到的。KOReader的官网也有相关说明。
帖点东西上来,为有需要的人减少一点搜索的麻烦:
KOReader官方对于OCR功能的介绍
OCR (Optical Character Recognition) is the process of extracting text from images into machine readable format. In KOReader context, it is generally used for extracting text from scanned book pages in PDF files. KOReader relies on Tesseract Open Source OCR Engine for this task (https://github.com/tesseract-ocr/tessdoc).In order to use this feature you need to:
- Install Tesseract language data to your KOReader
- Add newly installed languages to koreader/defaults.lua configuration file (necessary only if your language is other than English or Chinese)
- INFO Buttons on OCR menu will not function until you install the necessary Tesseract files. Details of this process can be read in the related wiki page: https://github.com/koreader/koreader/wiki/Dictionary-support#dictionary-lookups-in-scanned-pages
OCR(光学字符识别)是将图像中的文本提取为机器可读格式的过程。在KOReader上下文中,它通常用于从PDF文件中的扫描书籍页面中提取文本。KOReader依赖Tesseract开源OCR引擎完成此任务(https://github.com/tesseract-ocr/tessdoc)
要使用此功能,您需要:
- 将Tesseract语言数据安装到您的KOReader
- 将新安装的语言添加到koreader/defaults.lua配置文件中(仅当您的语言不是英语或中文时才需要)
在安装必要的Tesseract文件之前,OCR菜单上的INFO按钮将无法工作。此过程的详细信息可以在相关的wiki页面中阅读:https://github.com/koreader/koreader/wiki/Dictionary-support#dictionary-在扫描的页面中查找
koreader官方使用文档
mobileread论坛上的答疑帖
traineddata3.0.4
downgit:github下载加速