【PDF提取神器】最新推出的PymuPDF4llm库可提取pdf中的文字/表格/图像/单词

时间：2024-11-07 15:47:49浏览次数：7

标签：md markdown 提取文档 PymuPDF4llm pdf pymupdf4llm

前言

PymuPDF4llm 是最新推出的pdf提取工具，针对LLM进行了专门优化，它支持markdown提取和LlamaIndex文档输出，可以准确提取pdf中的结构化数据，包括文字/表格/图像/单词，其中文字以markdown的形式提取，图像则以路径的形式插入到文字中并且存储在对应路径中。使用PymuPDF4llm 获取多模态数据后，多模态LLM可以利用各种图文信息来执行更多样的任务，提高应用程序的性能。在试用之后发现文字和图像的识别效果很不错，表格和单词由于场景较少所以暂时没有直观体验。

安装Pymupdf4llm

pip install pymupdf4llm

简单使用，提取markdown格式文本：

import pymupdf4llm

# 提取 markdown 格式的文本

md_text = pymupdf4llm.to_markdown(doc="input.pdf")

print(md_text)

# 存储为 markdown 格式的文件

import pathlib

output_file = pathlib.Path("output.md")

output_file.write_bytes(md_text.encode())

复杂使用，提取文本、图像、表格、单词并以字典形式保存。扩展 to_markdown 函数的参数：

md_text = pymupdf4llm.to_markdown(doc="input.pdf", # 输入文档
                                                             pages = [0, 1, 2],  # 选中页码
page_chunks = True,  # 进行chunk切分
write_images = True,  # 提取图片
                                                             image_path = "/content/images",  # 图片保存路径
image_format = "jpg",  # 图片保存格式
dpi = 200,  # 图片分辨率
extract_words = True)  # 提取单词

多模态具体应用

更多详细信息可阅读以下实践和api文档

Building a Multimodal LLM Application with PyMuPDF4LLM

API 文档

https://pymupdf.readthedocs.io/en/latest/pymupdf4llm/index.html

标签：md,markdown,提取,文档,PymuPDF4llm,pdf,pymupdf4llm
From： https://blog.csdn.net/m0_68116052/article/details/143595565

HTML 转 PDF API 接口
HTML转PDFAPI接口网络工具/文件处理支持网页转PDF高效生成PDF/提供永久链接。1.产品功能超高性能转换效率；支持将传递的HTML转换为PDF，支持转换HTML中的CSS格式；支持传递网站URL，直接转换页面成对应的PDF文件；转换后的PDF提供永久存储文件地址；全接口......
平面点云凹边界提取
目录1原理介绍 α-shape的基础概念数学公式推导2.1外接圆半径2.2根据α参数筛选三角形2.3构建α-shape2.4参数调整与优化3α-shape的构建步骤4示例代码取点云的凹边界是计算几何中的一个经典问题。凹边界与凸边界不同，它......
【活字格插件】OFD转PDF
在当今信息化、数字化迅速发展的时代，文档的处理与流转已成为办公自动化的重要组成部分。不同文档格式之间的转换，尤其是从专业格式到通用格式的转换，是保证信息流通性和兼容性的关键步骤之一。 OFD（OpenFixed-layoutDocument......
抖音新店批量提取工具新开店铺采集软件深度研究
importrequestsimportjson假设的API端点（这不是抖音的API，只是一个示例）API_ENDPOINT="https://api.example.com/shops/new"假设的API密钥（在实际应用中，你应该从安全的地方获取这个密钥）API_KEY="your_api_key_here"请求头，包含API密钥headers={"Authorization":f"Bear......
PDF编辑报错acrord32.dll？免费工具助你解决编辑PDF时的acrord32.dll错误
在编辑PDF文件时，如果遇到“acrord32.dll”错误，这通常意味着AdobeReader或相关PDF编辑软件的某个关键组件出现了问题。acrord32.dll是AdobeReader和Acrobat等程序中用于处理PDF文件的重要动态链接库文件。一旦这个文件丢失或损坏，PDF文件可能无法正常打开或编辑。幸运的是，有多......
word转pdf
fromwin32comimportclient#转换doc为pdfdefdoc2pdf(fn):word=client.Dispatch("Word.Application")#打开word应用程序#forfileinfiles:doc=word.Documents.Open(fn)#打开word文件doc.SaveAs("{}.pdf".format(fn[:-4]),17)......
60多门编程语言学习书籍超级大合集（700+本PDF）
60多门编程语言的学习书籍超级大合集（700+本PDF），这简直就是编程爱好者的宝藏库啊！这里面包含了各种各样的编程语言，从常见的Java、Python到相对冷门的Haskell、Lisp等等。这些书籍的质量也是参差不齐，有那种深入剖析语言特性的专业著作，也有通俗易懂适合初学者的入门教程。对......
powerdesigner导出pdf
设置合适页面大小：当图比较多的时候，默认是无法在一个页面（默认为A4页面尺寸）展示所有的，这是有两种方式：方式一(推荐)：自适应即单击Fittopage或者Centertopage导出PDF:默认打开很小（A4页面）：但是放大后，清晰度杠杠的：......
如何为PDF文件设置打开密码？推荐3种方法
在工作中，PDF文档经常被用于分享和存档，但其中的敏感内容也容易被他人查看。为PDF文件设置一个打开密码，是确保文档安全的有效方式。如果小伙伴们不知道如何给PDF文件设置打开密码，可以看看以下3种方法！方法1：使用PDF编辑工具PDF编辑工具都具备多个功能模块，也支持为PDF文件添加密码......
PDF
PDFtk用于在命令行中对PDF文件执行各种操作。https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/合并pdfpdftkfile1.pdffile2.pdfcatoutputmerged.pdf拆分pdfpdftkinput.pdfburstoutputpage_%d.pdf抽取pdf特定页面pdftkinput.pdfcat1-35outputextrac......

【PDF提取神器】最新推出的PymuPDF4llm库可提取pdf中的文字/表格/图像/单词

前言

安装Pymupdf4llm

多模态具体应用

API 文档

相关文章

赞助商

阅读排行

【PDF提取神器】最新推出的PymuPDF4llm库 可提取pdf中的文字/表格/图像/单词

前言

安装Pymupdf4llm

多模态具体应用

API 文档

相关文章

赞助商

阅读排行

【PDF提取神器】最新推出的PymuPDF4llm库可提取pdf中的文字/表格/图像/单词