首页 > 其他分享 >文档解析Docling、Marker测评

文档解析Docling、Marker测评

时间:2024-11-26 15:11:48浏览次数:4  
标签:import print 文档 install time Marker Docling pdf marker

Docling

https://github.com/DS4SD/docling

环境安装

直接使用文档中的

pip install docling

无法使用,因为torch和nvidia过高,与当前服务器版本不匹配,最好是低于当前服务器版本比较保险
image
image

python第三方库中nvidia开头的版本需要小于12.2,如果使用12.4无法使用

安装步骤:

pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install docling --no-deps

再根据提示缺少的库手动安装即可

测试

  1. 测试用例1
from docling.document_converter import DocumentConverter
import time

start = time.time()

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"
end = time.time()
print(end - start)

测试官网提供的demo,9页pdf耗时169s

image

pdf中的log不显示,只是显示

  1. 测试用例2

改成输入中文ppf转pdf的文件,29页的pdf耗时290s,文字基本能识别出来,但会出现部分识别错误
image

image

Marker

https://github.com/VikParuchuri/marker?tab=readme-ov-file

环境安装

poetry install
pip install marker-pdf

测试

  1. 测试用例1

from marker.convert import convert_single_pdf
from marker.models import load_all_models
import time

start=time.time()

fpath = r"/data/develop/hjy/DocAnalysis/data/test.pdf"
model_lst = load_all_models()
full_text, images, out_meta = convert_single_pdf(fpath, model_lst)
end=time.time()
print(end-start)
print(full_text)

print(images)

print(out_meta)

转换同一份pdf,marker速度明显快于docling

标签:import,print,文档,install,time,Marker,Docling,pdf,marker
From: https://www.cnblogs.com/Gimm/p/18570176

相关文章

  • SpringBoot运动装备拍卖网站u455n 带论文文档1万字以上,文末可获取
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表系统内容:竞拍者,拍卖者,拍卖品上传,拍卖品,竞拍信息,拍卖结果,网站公告,金额返回开题报告内容一、研究背景与意义随着体育运动的普及和人们对健康生活的追求,运......
  • SpringBoot游泳馆会员管理系统q26c5 带论文文档1万字以上,文末可获取
    开题报告内容一、选题背景与意义随着健康意识的提升,游泳馆作为重要的健身场所,其会员管理效率直接影响到顾客体验和经营效益。传统的会员管理方式存在信息记录不全、查询不便、服务不精准等问题。因此,开发一套高效、智能的游泳馆会员管理系统具有重要意义,旨在提升会员服务质量......
  • 什么是脱离文档流?有什么办法可以让元素脱离标准的文档流?
    在前端开发中,脱离文档流(outofflow)指的是元素不再遵循HTML文档的标准布局流程。通常情况下,块级元素会垂直堆叠,而内联元素则水平排列。脱离文档流的元素会打破这种常规布局,不再占据文档流中的空间,后续元素会忽略其存在,就像它不存在一样进行排列。有几种方法可以让元素脱离......
  • 打破文档管理困局!五款软件大比拼
    在信息化时代,文档管理软件已经成为工作中不可或缺的工具,尤其是在团队协作和项目管理中,如何选择一款高效、便捷且安全的文档管理软件,成为了众多用户的关注焦点。面对市面上琳琅满目的文档管理工具,本文将从功能、易用性、协作性和安全性等方面,比较几款主流的文档管理软件,以帮助用户......
  • 【Z2400012】基于Java+SpringBoot+Vue+mysql实现的职工管理系统(附源码 配置 文档)
    职工管理系统1.摘要2.开发目的和意义3.系统功能设计4.系统界面截图5.源码获取1.摘要本系统是一个基于SpringBoot和Vue框架实现的职工管理系统,旨在满足现代公司和组织对员工信息、考勤、工资等多方面的管理需求。系统设计了管理员、人事经理、职工三种角色,每种角色拥......
  • 类NoCRUD项目开发手册 模版引擎FreeMarker 命令行制作器Picocli
    初次发布于我的个人文档参考资料[FreeMarker官方文档(英文)](ApacheFreeMarkerManual)FreeMarker中文官方参考手册Picocli官方文档(英文)picocli-中文博客1.安装依赖//https://mvnrepository.com/artifact/org.freemarker/freemarkerimplementation("org.freemarker:freem......
  • 用python、JAVA等多种语言的实例代码演示教你如何免费获取股票数据(实时数据、历史数据
    ​近一两年来,股票量化分析逐渐受到广泛关注。而作为这一领域的初学者,首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息,这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据......
  • SpringBoot疫情背景下社区互助服务系统5wo58 带论文文档1万字以上,文末可获取
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表系统内容:居民,健康上报,外出登记,来访登记,互助信息,物资供给,物资捐赠,空间管理开题报告内容一、选题背景、目的及意义自2019年底新型冠状病毒(COVID-19)爆发以......
  • 【Z2400010】基于java+ssm+mysql+layui的学籍管理系统的设计与实现(附源码 配置 文档)
    基于ssm+layui的学籍管理系统1.摘要2.系统功能3.系统数据库4.界面展示5.源码获取1.摘要本系统是一个基于SSM(Spring+SpringMVC+MyBatis)框架和Layui前端框架的学籍管理系统,旨在帮助新手快速上手JavaWeb项目的整体运行流程,并熟悉此类项目的搭建过程。系统界面简洁明......
  • 为什么这些工具能成为开发团队的需求文档首选?
    在软件开发的过程中,需求文档是项目成功的关键之一。一个清晰、全面的需求文档能确保开发团队和产品经理对项目目标有统一的理解,避免后期出现反复修改和沟通不畅的问题。然而,需求文档的编写往往面临一些挑战,比如需求变动频繁、文档维护成本高等。这时候,一些高效的工具可以大大减轻......