【拥抱AI】RAG数据清洗工具MinerU

时间：2024-09-11 10:51:21浏览次数：14

标签：RAG AI 模型 MinerU 文档 PDF pdf 数据

MinerU是做什么的？

MinerU是一款开源的数据提取工具，由上海人工智能实验室（上海AI实验室）的OpenDataLab团队开发。它主要用于将复杂的PDF文档、网页和电子书转换为易于分析的Markdown格式，同时支持多种语言的识别和处理。MinerU的功能包括布局检测、公式识别、光学字符识别（OCR）以及后处理管线，这些功能能够确保文档中的文本、图像、表格和公式等元素被准确提取和转换。

为什么选择它？优势在哪里？

MinerU在数据清洗领域具有以下独特优势：

复杂PDF文档处理能力：MinerU能够将包含图片、公式、表格等多种复杂元素的PDF文档精准转化为Markdown格式，这对于需要从专业文档中提取信息的用户来说是一个重要的功能。
高效的网页内容提取：除了PDF，MinerU还支持从网页和电子书中快速解析、抽取正式内容，这有助于提高AI语料准备的效率。
多模态数据支持：MinerU不仅处理文本数据，还能够识别和处理图像和表格，甚至将公式转换成LaTex，这增加了其在数据清洗中的应用范围。
高性能：MinerU在GitHub上的表现显示了其SOTA（State-of-the-Art，即最新技术水平）的效果，其性能媲美甚至超过了一些商业软件，这表明它在数据清洗效率上具有显著优势。
广泛的语言支持：MinerU支持176种语言，这使得它能够处理多种语言环境下的数据清洗任务。
开源和社区支持：作为一个开源项目，MinerU受益于社区的贡献和支持，这可能会带来持续的功能改进和技术更新。

这些优势使得MinerU在数据清洗领域具有较强的竞争力，特别是在处理复杂格式的文档和多语言数据时。

MinerU的安装和配置

使用Conda创建Python环境：

conda create -n MinerU python=3.10
conda activate MinerU

安装MinerU依赖：

pip install magic-pdf[full-cpu]
pip install detectron2 --extra-index-url https://myhloli.github.io/wheels/

下载模型权重：
您可以从Hugging Face模型库或魔搭社区模型库下载MinerU的模型权重。由于网络原因，国内用户访问Hugging Face可能会失败，因此建议使用ModelScope进行模型下载。在下载模型时，请确保检查模型文件的完整性，并根据需要进行配置。
以下是具体的步骤：

可以使用pip命令进行安装：
```
pip install modelscope
```

使用ModelScope的SDK下载模型权重，您可以使用以下Python代码来下载模型：

from modelscope import snapshot_download
model_dir = snapshot_download('wanderkid/PDF-Extract-Kit')

如果您更倾向于使用Git命令来克隆模型仓库，可以使用以下命令：
```
git clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git
```

配置MinerU：
根据您的环境配置magic-pdf.json文件，设置模型路径、输出目录等。

使用MinerU提取数据

命令行使用：
使用magic-pdf命令并指定PDF文件路径、模型路径等参数来提取数据。例如：
```
magic-pdf pdf-command --pdf "path/to/your/document.pdf" --model_mode full
```
通过接口调用：
您可以通过编写Python代码来调用MinerU的接口，实现更灵活的数据提取流程。

注意事项

确保您的环境中安装了所有必要的依赖，并且正确配置了模型权重。
在使用MinerU时，您可以指定不同的模型模式，以平衡速度和精度。
查看MinerU的官方文档和GitHub仓库获取更详细的安装和使用指南。

MinerU的详细安装和使用方法可以在其GitHub仓库的文档中找到，包括环境准备、安装Magic-PDF、下载模型权重文件、配置设置等步骤。

GitHub地址：https://github.com/opendatalab/MinerU

标签：RAG,AI,模型,MinerU,文档,PDF,pdf,数据
From： https://blog.csdn.net/u010690311/article/details/142125383

从数据洞察到智能决策：合合信息&infiniflow RAG技术的实战案例分享
从数据洞察到智能决策：合合信息&infiniflowRAG技术的实战案例分享标题取自LLamaIndex，这个内容最早提出于今年2月份LlamaIndex官方博客。从22年chatGpt爆火，23年大模型尝鲜，到24年真正用AI落地业务场景，业界普遍都发现了从MVP到PMF不是那么容易的，具体的原因有非常......
uniapp 将数据存储在本地缓存setStorage及从本地缓存中异步获取getStorage
一、uni.setStorage(OBJECT)将数据存储在本地缓存中指定的key中，会覆盖掉原来该key对应的内容，这是一个异步接口。HarmonyOSNext兼容性HarmonyOSNextHBuilderX4.23OBJECT参数说明参数名类型必填说明keyString是本地缓存中的指定的keydat......
使用kube-prometheus部署k8s监控---超详细(Kubernetes Deployment of Kubernetes Moni
......
利用AI驱动智能BI数据可视化-深度评测Amazon Quicksight（一）
项目简介随着生成式人工智能的兴起，传统的BI报表功能已经无法满足用户对于自动化和智能化的需求，今天我们将介绍亚马逊云科技平台上的AI驱动数据可视化神器–Quicksight，利用生成式AI的能力来加速业务决策，从而提高业务生产力。借助Quicksight中集成的AmazonQ的创作功能，业务......
2016 ACM/ICPC Asia Regional Qingdao Online(SDKD 2024 Summer Training Contest H2)
A-ICountTwoThree题意给定n，求第一个$\ge$n的数k，且k=$2^a3^b5^c7^d$。思路考虑到样例很多，直接打表存入set省去数组排序操作，由于n$\le$1e9，所以只需要打到1e9后二分即可。(记得加上快读快写，T得饱饱的......
RAII思想
c++RAII思想什么是RAII资源获取即初始化（ResourceAcquisitionIsInitialization，简称RAII）是一种C++编程技术，它将在使用前获取（分配的堆内存、执行线程、打开的套接字、打开的文件、锁定的互斥量、磁盘空间、数据库连接等有限资源）的资源的生命周期与某个对象的生命周期绑定在......
表情迁移大法，LivePortrait 帮你快速处理图片！
LivePortrait由快手可灵大模型团队开源，主要功能包括从单一图像生成生动动画、精确控制眼睛和嘴唇的动作、处理多个人物肖像的无缝拼接、支持多风格肖像、生成高分辨率动画等。该项目使用的是基于隐式关键点框架的AI肖像动画生成框架。它能够将驱动视频的表情和姿态迁移到静态或......
[Embodied AI Tutorial] The Basic Frameworks and Techniques for Embodied AI (Part
目录EmbodiedAITutorial课程内容ModelingandapproachesforEmbodiedAIWorldModelGetaGoodPolicyPlanningAndControlSimulationtechnologyforEmbodiedAIRigidbodysimulationCamerasimulationAsserts相关链接资料查询EmbodiedAITutorial课程主页：slidesvide......
利用投影技术增强RAG文档检索的多样性
介绍检索增强生成(RAG)已成为语言模型中生成更准确和上下文相关输出的流行方法。通常，RAG中的检索步骤依赖于余弦相似度来识别top-n相关文档。然而，这种方法的一个缺点是它可以返回高度相似的文档，从而导致冗余和较少的响应多样性。这里提出了一种通过迭代调整所选文档向量来......
C# console application main method new and start wpf window application
1.NewConsoleapplication;2.Addreference,PresentationCoreandWindowsBase3.usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Windows;usingSystem.Windows.Controls;using......