首页 > 其他分享 >MinerU、Magic-PDF、Magic-Doc

MinerU、Magic-PDF、Magic-Doc

时间:2024-07-27 19:00:38浏览次数:15  
标签:Magic magic MinerU pipe pdf PDF 安装

文章目录


一、关于 MinerU

MinerU 是一款一站式、开源、高质量的数据提取工具,主要包含以下功能:



二、Magic-PDF


1、简介

Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。

主要功能包含

  • 支持多种前端模型输入
  • 删除页眉、页脚、脚注、页码等元素
  • 符合人类阅读顺序的排版格式
  • 保留原文档的结构和格式,包括标题、段落、列表等
  • 提取图像和表格并在markdown中展示
  • 将公式转换成latex
  • 乱码PDF自动识别并转换
  • 支持cpu和gpu环境
  • 支持windows/linux/mac平台

使用示例


2、项目全景

项目全景图


3、流程图

流程图


4、子模块仓库


三、Magic-PDF 上手指南


1、配置要求

python >= 3.9

推荐使用虚拟环境,以避免可能发生的依赖冲突,venv和conda均可使用。
例如:

conda create -n MinerU python=3.10
conda activate MinerU

开发基于python 3.10,如果在其他版本python出现问题请切换至3.10。


2、安装配置


1. 安装Magic-PDF

使用pip安装完整功能包:

受pypi限制,pip安装的完整功能包仅支持cpu推理,建议只用于快速测试解析能力。

如需在生产环境使用CUDA/MPS加速请参考使用CUDA或MPS加速推理

pip install magic-pdf[full-cpu]

❗️已收到多起由于镜像源和依赖冲突问题导致安装了错误版本软件包的反馈,请务必安装完成后通过以下命令验证版本是否正确

magic-pdf --version

如版本低于0.6.x,请提交issue进行反馈。


完整功能包依赖detectron2,该库需要编译安装,如需自行编译,请参考 facebookresearch/detectron2#5114
或是直接使用我们预编译的whl包(仅限python 3.10):

pip install detectron2 --extra-index-url https://myhloli.github.io/wheels/

2. 下载模型权重文件

详细参考 如何下载模型文件
下载后请将models目录移动到空间较大的ssd磁盘目录


3. 拷贝配置文件并进行配置

在仓库根目录可以获得 magic-pdf.template.json 文件

cp magic-pdf.template.json ~/magic-pdf.json

在magic-pdf.json中配置"models-dir"为模型权重文件所在目录

{
  "models-dir": "/tmp/models"
}

4. 使用CUDA或MPS加速推理

如您有可用的Nvidia显卡或在使用Apple Silicon的Mac,可以使用CUDA或MPS进行加速


CUDA

需要根据自己的CUDA版本安装对应的pytorch版本
以下是对应CUDA 11.8版本的安装命令,更多信息请参考 https://pytorch.org/get-started/locally/

pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

同时需要修改配置文件magic-pdf.json中"device-mode"的值

{
  "device-mode":"cuda"
}

MPS

使用macOS(M系列芯片设备)可以使用MPS进行推理加速
需要修改配置文件magic-pdf.json中"device-mode"的值

{
  "device-mode":"mps"
}

3、使用说明


1) 通过命令行使用

直接使用
magic-pdf pdf-command --pdf "pdf_path" --inside_model true

程序运行完成后,你可以在 /tmp/magic-pdf 目录下看到生成的markdown文件,markdown目录中可以找到对应的 xxx_model.json 文件
如果您有意对后处理pipeline进行二次开发,可以使用命令

magic-pdf pdf-command --pdf "pdf_path" --model "model_json_path"

这样就不需要重跑模型数据,调试起来更方便


更多用法
magic-pdf --help

2) 通过接口调用

本地使用
image_writer = DiskReaderWriter(local_image_dir)
image_dir = str(os.path.basename(local_image_dir))
jso_useful_key = {"_pdf_type": "", "model_list": model_json}
pipe = UNIPipe(pdf_bytes, jso_useful_key, image_writer)
pipe.pipe_classify()
pipe.pipe_parse()
md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")

在对象存储上使用
s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint)
image_dir = "s3://img_bucket/"
s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir)
pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN)
jso_useful_key = {"_pdf_type": "", "model_list": model_json}
pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli)
pipe.pipe_classify()
pipe.pipe_parse()
md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")

详细实现可参考 demo.py


4、常见问题处理解答

参考 FAQ


四、Magic-Doc

1、简介

Magic-Doc 是一个轻量级、开源的用于将多种格式的文档(PPT/PPTX/DOC/DOCX/PDF)转化为 markdown 格式的工具。支持转换本地文档或者位于 AWS S3 上的文件

主要功能包含

  • Web网页提取
    • 跨模态精准解析图文、表格、公式信息
  • 电子书文献提取
    • 支持 epub,mobi等多格式文献,文本图片全适配
  • 语言类型鉴定
    • 支持176种语言的准确识别


2、安装

前置依赖: python3.10

安装依赖

linux/osx

apt-get/yum/brew install libreoffice

windows

安装 libreoffice 
添加 "install_dir\LibreOffice\program" to 环境变量 PATH

安装 Magic-Doc

pip install fairy-doc[cpu] # 安装 cpu 版本 
或 
pip install fairy-doc[gpu] # 安装 gpu 版本

3、使用示例

# for local file
from magic_doc.docconv import DocConverter, S3Config
converter = DocConverter(s3_config=None)
markdown_content, time_cost = converter.convert("some_doc.pptx", conv_timeout=300)
# for remote file located in aws s3
from magic_doc.docconv import DocConverter, S3Config

s3_config = S3Config(ak='${ak}', sk='${sk}', endpoint='${endpoint}')
converter = DocConverter(s3_config=s3_config)
markdown_content, time_cost = converter.convert("s3://some_bucket/some_doc.pptx", conv_timeout=300)

4、性能

环境:AMD EPYC 7742 64-Core Processor, NVIDIA A100, Centos 7

文件类型转化速度
PDF (digital)347 (page/s)
PDF (ocr)2.7 (page/s)
PPT20 (page/s)
PPTX149 (page/s)
DOC600 (page/s)
DOCX1482 (page/s)

2024-07-21(日)

标签:Magic,magic,MinerU,pipe,pdf,PDF,安装
From: https://blog.csdn.net/lovechris00/article/details/140584728

相关文章

  • LLM大模型全攻略:一本书精通AI的未来【附赠PDF】
    哈喽大家好!最近有粉丝朋友喊我推荐一些大模型的学习书籍,我给大家推荐这么一本书,基于gbt3、gbt4等transform架构的自然语言处理。这是一本对transform工作原理感兴趣的人必读的书籍。亚马逊的评分是九点七分,内行人在睡不着的时候恨不得把全书都背诵完毕。本书的写作目的是......
  • 使用Python进行PDF旋转
    使用python旋转扫描的pdf后,它工作得很好,但将pdf发送给第三方后,第三方仍然将pdf检测为90度pdf有什么办法可以解决旋转和这个问题importPyPDF2withopen('input.pdf','rb')asfile:#CreateaPDFreaderobjectreader=PyPDF2.PdfReader(file)......
  • 加速/并行化 multivariate_normal.pdf
    我有多个Nx3点,并且我从其相应的多元高斯中顺序为每个点生成一个新值,每个点都有1x3均值和3x3cov。因此,我总共有数组:Nx3点数组、Nx3均值数组和Nx3x3cov数组。我只看到如何使用经典的for循环来做到这一点:importnumpyasnpfromscipy.statsimportmultivariat......
  • CET6英语六级真题及答案解析下载电子版pdf2024年6月
    大学英语六级真题在线试卷电子版PDF听力及答案解析–学习备忘录(201800.com)2024年6月CET6真题及答案解析,扫码下载电子版PDF:李明,是一名即将大三的学生。他一直梦想着能够顺利通过大学英语六级考试(CET-6),因为他知道这不仅能够证明自己的英语水平,还可能为将来的就业或留学提供......
  • 使用 Python 生成多页 PDF 报告,其中包含表格、页眉、页脚和可调整单元格数据(使用 repo
    我想在Python中生成带有表格、页眉、页脚和可调整单元格数据的多页PDF报告(使用reportlab)但是,由于奇怪的原因,字体大小并没有随着表格内容而改变......我尝试在这里改变:('FONTSIZE',(0,1),(-1,-1),24),#内容的字体大小但什么也没发生importtimefromreportlab......
  • php实现pdf转图片
    以下运行环境是Centos7第一,安装ImageMagick(作用,用于处理图片) 第二,安装 ImageMagick开发包(作用,使得可以通过php程序处理图片) 安装成功后开启imagick扩展 以下是简单的demo ......
  • 【专题】2024年云计算白皮书报告合集PDF分享(附原数据表)
    原文链接:https://tecdat.cn/?p=371122023年全球云计算市场显著增长,预计将持续繁荣至2027年突破万亿美元,中国市场同样保持强劲势头,预计也将大幅跃升。国内云计算经过十余年发展,虽取得显著进展,但在资源布局、服务质量和技术融合等方面仍需深化提升。阅读原文,获取专题报告合集全文,解......
  • pdf文件压缩的有效方法,详解5个效果高效的文件压缩方法汇总!
    在现代信息社会中,PDF文件已经成为我们日常工作和学习中不可或缺的重要载体。然而,随着PDF文件内容的增多和复杂化,文件大小的膨胀也成为一个常见问题,给存储、共享和传输带来了不少挑战。本文旨在探讨如何通过有效的压缩方法来解决pdf文件过大的问题。我们将详细介绍五种高效......
  • .net-base64转ofd文件转pdf转图片后压缩打包
    最近有需求从第三方获取到ofd文件后,需要转pdf,1.目前看的有一个免费的插件,需要安装程序包FreeSpire.PDF 安装后,直接引用//odf文件地址stringpath=@"D:\OFD\20240725\吴天.ofd";OfdConverterconverter=newOfdConverter(path);//path......
  • Python PDF 编辑器
    我将制作一个PDF编辑器,它可以更改PDF中的单词,而无需更改文本的来源。这是我的代码,到目前为止,它所做的一切都是正确的,但我可以获得文本颜色和文本大小。importpymupdfimportos#OpenthePDFdocumentdoc=pymupdf.open('input.pdf')#Loadthecustomfontfi......