介绍

1 版面分割模型

这部分属于另一个项目（pdf-document-layout-analysis）的内容，可以移步查看具体模型的介绍和训练过程。

1.1 机器学习模型
基于LIGHTGBM算法，并且只需要使用CPU资源，因此对硬件要求不高，速度快，但是只能处理文字类型的PDF。

1.2 VGT模型
能处理图片PDF，同时把版面内容识别为11种类型

   1: "Caption"
   2: "Footnote"
   3: "Formula"
   4: "List item"
   5: "Page footer"
   6: "Page header"
   7: "Picture"
   8: "Section header"
   9: "Table"
   10: "Text"
   11: "Title"

如果对表格、图片、手写内容的识别精度有要求，则需要使用该模型。

2 分割策略

上述模型能够为每一块区域生成一种对应的类型（如Title、Text等），默认按照Title -> Section header -> Other 这种层次结构进行分割和组合，如果遇到高于当前段中的层次或者段长度超过限制(target_chunk_length)，则进行分割。

3 OCR策略

chunkr使用的OCR为Textract，的OCR策略分为如下三种：
● Auto：对于扫描件，则全部进行OCR；对于文字PDF，则只有图片和表格进行OCR
● All：开启所有组件的OCR
● Off：关闭所有组件的OCR

用法

1 注册账号

在官网完成账号注册，获取API KEY

有1000页的快速处理额度和500页的高精度处理额度

2 API处理

2.1 创建任务

curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"

任务为异步调用，可通过返回的任务id查看处理结果

2.2 获取结果

curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"

3 在线处理

在这里可以直接拖拽、上传PDF文档，配置参数（与API调用一致）、实时查看处理结果

使用体会

在试用过程中发现版面分析部分把一部分简单的Text区域识别为表格或者图片，猜测可能是因为模型的阈值不可控制导致的。这种使用方法比较适合普通用户，对于开发者或者需要调整文档识别结果的人来说可能不是很友好，不过有1500页的免费额度使用还是挺香的～

标签：api,模型,API,文档,Chunkr,PDF,OCR
From： https://www.cnblogs.com/deeplearningmachine/p/18553760

伯索云学堂视频课件课程下载工具，如何在电脑端下载伯索云学堂视频课程课件资料PDF,PPT
一.安装伯索云课程下载器1.获取学无止下载器https://www.xuewuzhi.cn/plaso_downloader2.下载安装后，然后点击桌面快捷方式运行即可。注意：杀毒软件可能会阻止外部exe文件运行，并将其当做成病毒，直接添加信任即可，本软件绝对没有木马病毒。二.使用说明1.学无止下载器介绍学无......
营业执照 OCR 识别 API 接口用Java如何调用
营业执照OCR识别API是一项创新的技术应用，它充分利用了先进的光学字符识别技术，能够快速、准确地读取营业执照上的文字和数字信息。这个接口会自动识别营业执照上的关键数据，包括但不限于公司名称、注册号、法定代表人、公司类型、成立日期、注册资本、营业期限、营业范围等......
行驶证 OCR 识别 API 接口用PHP如何调用
行驶证OCR识别接口是一种极为强大的工具。其强大之处在于，当用户传入行驶证照片后，它能够以令人惊叹的速度和极高的准确性，快速准确地识别出行驶证上的所有文字信息。识别完成后，它会将这些文字信息以高度结构化的形式进行返回。以下是行驶证OCR识别API接口用PHP如何调用的......
行驶证 OCR 识别 API 接口用C#如何调用
具体来说，行驶证OCR识别接口具备强大的功能，可以准确识别包括所有人、品牌型号、住址、车牌号、发动机号码、车辆识别代号、注册日期、发证日期等多个至关重要的字段信息。在实际应用中，该接口通过对行驶证照片进行全面而深入的智能分析，能够极为精准地提取出上述的这些信息。并......
批量提取当前文件夹pdf书籍目录
importfitz#PyMuPDFimportpandasaspdimportos#获取当前文件夹中所有的PDF文件pdf_files=[fforfinos.listdir('.')iff.endswith('.pdf')]#提取目录信息的函数defextract_toc(toc,toc_list,level=0):foritemintoc:#确保目录项至少......
吐槽ubuntu上pdf阅读器
!https://zhuanlan.zhihu.com/p/6483861108细数(吐槽)ubuntu(linux)上pdf阅读器不好用的地方作为一枚研究僧，有使用ubuntu(linux)的需求，同时也有在ubuntu上看学术文献的需求(毕竟有时候懒得切换回windows)。对于pdf学术文献阅读，最需要功能是高亮、点击跳转、(跳转后)返回、批注......
java操作pdf文本域填充内容
引入jar包<dependencies><dependency><groupId>com.itextpdf</groupId><artifactId>itext7-core</artifactId><version>7.2.5</version><type>pom&......
【Adobe Acrobat pro 2024软件下载与安装教程-PDF编辑神奇】
1、安装包「AdobeAcrobat2024」:链接：https://pan.quark.cn/s/86f8683afe5c提取码：4uur2、安装教程(建议关闭杀毒软件和系统防护)1) 下载软件安装包，打开安装目录，双击Setup.exe安装，弹出安装对话框 2) 点击安装按钮 3) ......
Chromium源码分析二：LifeofaPixel.pdf
Chromium源码分析二：LifeofaPixel.pdf目录LifeofaPixel个人观点ccLayer树skia、vulkan、openGL、openCVSkiaVulkanOpenGLOpenCV区别联系PrePaintLifeofaPixel.pdf像素的一生，跟随像素的一生去理解Chromium的工作原理。据说是Chromium的入门培训PPT网址：......
pdf.js使用gulp打包，查看打包后的文档
在pdf.js的源码中，使用了gulp进行打包，现在对部分有用的gulp方法进行说明gulpserver运行一个服务器版本，能够对源码进行调试gulpgeneric打包一个通用浏览器版本的代码，运行命令后在build/generic/web/viewer.html可以直接打开运行web程序gulpwintersmith是生成gh-pages，用来......

Chunkr: 在线PDF文档解析与OCR工具

介绍