首页 > 其他分享 >Chunkr: 在线PDF文档解析与OCR工具

Chunkr: 在线PDF文档解析与OCR工具

时间:2024-11-18 21:45:04浏览次数:1  
标签:api 模型 API 文档 Chunkr PDF OCR

介绍

1 版面分割模型

这部分属于另一个项目(pdf-document-layout-analysis)的内容,可以移步查看具体模型的介绍和训练过程。

1.1 机器学习模型
基于LIGHTGBM算法,并且只需要使用CPU资源,因此对硬件要求不高,速度快,但是只能处理文字类型的PDF。

1.2 VGT模型
能处理图片PDF,同时把版面内容识别为11种类型

   1: "Caption"
   2: "Footnote"
   3: "Formula"
   4: "List item"
   5: "Page footer"
   6: "Page header"
   7: "Picture"
   8: "Section header"
   9: "Table"
   10: "Text"
   11: "Title"

如果对表格、图片、手写内容的识别精度有要求,则需要使用该模型。

2 分割策略

上述模型能够为每一块区域生成一种对应的类型(如Title、Text等),默认按照Title -> Section header -> Other 这种层次结构进行分割和组合,如果遇到高于当前段中的层次或者段长度超过限制(target_chunk_length),则进行分割。

3 OCR策略

chunkr使用的OCR为Textract,的OCR策略分为如下三种:
● Auto:对于扫描件,则全部进行OCR;对于文字PDF,则只有图片和表格进行OCR
● All:开启所有组件的OCR
● Off:关闭所有组件的OCR

用法

1 注册账号

官网完成账号注册,获取API KEY

有1000页的快速处理额度和500页的高精度处理额度

2 API处理

2.1 创建任务

curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"

任务为异步调用,可通过返回的任务id查看处理结果

2.2 获取结果

curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"

3 在线处理

这里可以直接拖拽、上传PDF文档,配置参数(与API调用一致)、实时查看处理结果

使用体会

在试用过程中发现版面分析部分把一部分简单的Text区域识别为表格或者图片,猜测可能是因为模型的阈值不可控制导致的。这种使用方法比较适合普通用户,对于开发者或者需要调整文档识别结果的人来说可能不是很友好,不过有1500页的免费额度使用还是挺香的~

标签:api,模型,API,文档,Chunkr,PDF,OCR
From: https://www.cnblogs.com/deeplearningmachine/p/18553760

相关文章

  • 伯索云学堂视频课件课程下载工具,如何在电脑端下载伯索云学堂视频课程课件资料PDF,PPT
    一.安装伯索云课程下载器1.获取学无止下载器https://www.xuewuzhi.cn/plaso_downloader2.下载安装后,然后点击桌面快捷方式运行即可。注意:杀毒软件可能会阻止外部exe文件运行,并将其当做成病毒,直接添加信任即可,本软件绝对没有木马病毒。二.使用说明1.学无止下载器介绍学无......
  • 营业执照 OCR 识别 API 接口用Java如何调用
    营业执照OCR识别API是一项创新的技术应用,它充分利用了先进的光学字符识别技术,能够快速、准确地读取营业执照上的文字和数字信息。这个接口会自动识别营业执照上的关键数据,包括但不限于公司名称、注册号、法定代表人、公司类型、成立日期、注册资本、营业期限、营业范围等......
  • 行驶证 OCR 识别 API 接口用PHP如何调用
    行驶证OCR识别接口是一种极为强大的工具。其强大之处在于,当用户传入行驶证照片后,它能够以令人惊叹的速度和极高的准确性,快速准确地识别出行驶证上的所有文字信息。识别完成后,它会将这些文字信息以高度结构化的形式进行返回。以下是行驶证OCR识别API接口用PHP如何调用的......
  • 行驶证 OCR 识别 API 接口用C#如何调用
    具体来说,行驶证OCR识别接口具备强大的功能,可以准确识别包括所有人、品牌型号、住址、车牌号、发动机号码、车辆识别代号、注册日期、发证日期等多个至关重要的字段信息。在实际应用中,该接口通过对行驶证照片进行全面而深入的智能分析,能够极为精准地提取出上述的这些信息。并......
  • 批量提取当前文件夹pdf书籍目录
    importfitz#PyMuPDFimportpandasaspdimportos#获取当前文件夹中所有的PDF文件pdf_files=[fforfinos.listdir('.')iff.endswith('.pdf')]#提取目录信息的函数defextract_toc(toc,toc_list,level=0):foritemintoc:#确保目录项至少......
  • 吐槽ubuntu上pdf阅读器
    !https://zhuanlan.zhihu.com/p/6483861108细数(吐槽)ubuntu(linux)上pdf阅读器不好用的地方作为一枚研究僧,有使用ubuntu(linux)的需求,同时也有在ubuntu上看学术文献的需求(毕竟有时候懒得切换回windows)。对于pdf学术文献阅读,最需要功能是高亮、点击跳转、(跳转后)返回、批注......
  • java操作pdf文本域填充内容
    引入jar包<dependencies><dependency><groupId>com.itextpdf</groupId><artifactId>itext7-core</artifactId><version>7.2.5</version><type>pom&......
  • 【Adobe Acrobat pro 2024软件下载与安装教程-PDF编辑神奇】
    1、安装包「AdobeAcrobat2024」:链接:https://pan.quark.cn/s/86f8683afe5c提取码:4uur2、安装教程(建议关闭杀毒软件和系统防护)1)       下载软件安装包,打开安装目录,双击Setup.exe安装,弹出安装对话框   2)       点击安装按钮  3)     ......
  • Chromium源码分析二:LifeofaPixel.pdf
    Chromium源码分析二:LifeofaPixel.pdf目录LifeofaPixel个人观点ccLayer树skia、vulkan、openGL、openCVSkiaVulkanOpenGLOpenCV区别联系PrePaintLifeofaPixel.pdf像素的一生,跟随像素的一生去理解Chromium的工作原理。据说是Chromium的入门培训PPT网址:​​​​​​​​​​​​​......
  • pdf.js使用gulp打包,查看打包后的文档
    在pdf.js的源码中,使用了gulp进行打包,现在对部分有用的gulp方法进行说明gulpserver运行一个服务器版本,能够对源码进行调试gulpgeneric打包一个通用浏览器版本的代码,运行命令后在build/generic/web/viewer.html可以直接打开运行web程序gulpwintersmith是生成gh-pages,用来......