首页 > 其他分享 >Marker效果试用,也是pdf2md

Marker效果试用,也是pdf2md

时间:2024-08-01 20:39:02浏览次数:13  
标签:markdown co pdf2md huggingface 试用 https Marker pdf

 

 

 

 

主要原理

Marker的工作原理基于深度学习模型。它首先通过OCR技术(如果需要的话)提取文本(采用启发式算法和 tesseract 工具),然后检测页面布局并确定阅读顺序(使用 布局分割器[1] 和 列检测器[2])。接下来,Marker会对每个文本块进行清洁和格式化处理(运用启发式算法和 nougat[3]),最后将所有块合并并进行后处理,生成完整的Markdown文本(利用启发式算法和 pdf后处理器[4])。Marker只在必要时使用模型,从而提高了速度and准确性

[1] 布局分割器: https://huggingface.co/vikp/layout_segmenter
[2] 列检测器: https://huggingface.co/vikp/column_detector
[3] nougat: https://huggingface.co/facebook/nougat-base
[4] pdf后处理器: https://huggingface.co/vikp/pdf_postprocessor_t5

参考链接

【1】一个开源的快速准确地将 PDF 转换为 markdown工具_pdf markdown-CSDN博客

【2】VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy (github.com)

标签:markdown,co,pdf2md,huggingface,试用,https,Marker,pdf
From: https://www.cnblogs.com/YeewahChan/p/18337478

相关文章

  • 超详细的MySQL CRUD 并配备了大量的测试用例, 包教包会
    MySQL数据库表的增删查改CRUD:Create(创建),Retrieve(读取),Update(更新),Delete(删除)Create​INSERT[INTO]table_name[(column[,column]…)]VALUES(value_list)[,(value_list)]…value_list:value,[,value]…insert语句主要有两种情况,一种是全行插......
  • 基于java jsp ssm医院人事档案排班,打卡,试用期,请假离职工资管理系统
    前言......
  • 如何在 pytest 的参数化中传递函数名称以及如何在测试用例中使用它?
    在下面的脚本中,我想参数化函数调用RegisterClientCabinMovementDetection(x)和RegisterClientOccupantInSeatDetection(x)(在脚本中以粗体显示)等等...有没有办法在pytest中参数化函数?@[email protected]('Qf,预期',[(UNDEFINED,"无效"),(INPROGR......
  • Pycharm 设置 yaml 格式接口测试用例模板 (python+pytest+yaml)
    前言初次编写的伙伴们可能对yaml格式不太熟悉,自己写yaml用例的时候,总是格式对不齐啊记不住设定好的关键字啊等等等琐事是我们可以在pycharm上设置用例模块,通过快捷方式调用出对应的模块,达到高效写用例的目的。 pycharm操作集:1、File-Settings(快捷键Ctrl+Alt+S) 2、Live......
  • 测试用例:确保软件质量的基石
     大家好,我是一名测试开发工程师,已经开源一套【自动化测试框架】和【测试管理平台】,欢迎大家联系我,一起【分享测试知识,交流测试技术】        在当今这个数字化时代,软件已经成为人们日常生活、工作和学习中不可或缺的一部分。从智能手机应用、企业级的ERP系统到复......
  • Golang试用阿里通义千问大语言模型
    一、控制台配置通义千问密匙官方操作指南地址控制台地址注意:一个密匙申请之后,官方给了一个月期限共计100万条Token的额度 二、代码阶段1、DashScopRequest结构体 typeEngineRolestringconst(EngineRoleUserEngineRole="user"EngineRoleSystem......
  • 测试需求、测试用例、bug的关系
    测试需求和测试用例、缺陷报告的关系?测试的基本流程:获取测试需求--编写测试计划--制定测试方案--设计和开发测试用例--执行测试--提交缺陷--测试分析和评审--测试总结--准备下一版本的测试获取测试需求是测试工作的重点,也是第一步。通过需求的分析,了解和掌握测试的方向和内容。......
  • 测试面试宝典(三十一)—— 接口测试用例的编写要点有哪些?
    以下是接口测试用例编写的要点:1.基本信息•明确接口的名称、版本、调用方式(如HTTP、RPC等)以及接口的功能描述。2.输入参数•覆盖各种合法和非法的输入值,包括必填项、可选项、空值、特殊字符、超长字符串等。•考虑不同数据类型(如整数、浮点数、字符串、布尔值等)的......
  • 参数化的艺术:Postman中API测试用例的动态构建
    参数化的艺术:Postman中API测试用例的动态构建在API测试自动化的领域,Postman是一个强大的工具,它提供了丰富的功能来简化测试过程。参数化是Postman中一项至关重要的功能,它允许测试用例动态适应不同的输入值,从而提高测试的覆盖率和效率。本文将深入探讨如何在Postman中进行AP......
  • python科学计算:加速库numba —— 安装和试用
    安装(anaconda环境下)condainstallnumbaDemo代码:fromnumbaimportjitfromnumpyimportarangeimportnumpyimporttime@jitdefsum2d(arr):M,N=arr.shaperesult=0.0foriinrange(M):forjinrange(N):result+=a......