Docling
https://github.com/DS4SD/docling
环境安装
直接使用文档中的
pip install docling
无法使用,因为torch和nvidia过高,与当前服务器版本不匹配,最好是低于当前服务器版本比较保险
python第三方库中nvidia开头的版本需要小于12.2,如果使用12.4无法使用
安装步骤:
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install docling --no-deps
再根据提示缺少的库手动安装即可
测试
- 测试用例1
from docling.document_converter import DocumentConverter
import time
start = time.time()
source = "https://arxiv.org/pdf/2408.09869" # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"
end = time.time()
print(end - start)
测试官网提供的demo,9页pdf耗时169s
pdf中的log不显示,只是显示
- 测试用例2
改成输入中文ppf转pdf的文件,29页的pdf耗时290s,文字基本能识别出来,但会出现部分识别错误
Marker
https://github.com/VikParuchuri/marker?tab=readme-ov-file
环境安装
poetry install
pip install marker-pdf
测试
- 测试用例1
from marker.convert import convert_single_pdf
from marker.models import load_all_models
import time
start=time.time()
fpath = r"/data/develop/hjy/DocAnalysis/data/test.pdf"
model_lst = load_all_models()
full_text, images, out_meta = convert_single_pdf(fpath, model_lst)
end=time.time()
print(end-start)
print(full_text)
print(images)
print(out_meta)
转换同一份pdf,marker速度明显快于docling
标签:import,print,文档,install,time,Marker,Docling,pdf,marker From: https://www.cnblogs.com/Gimm/p/18570176