首页 > 其他分享 >【拥抱AI】RAG数据清洗工具MinerU

【拥抱AI】RAG数据清洗工具MinerU

时间:2024-09-11 10:51:21浏览次数:13  
标签:RAG AI 模型 MinerU 文档 PDF pdf 数据

MinerU是做什么的?

  • MinerU是一款开源的数据提取工具,由上海人工智能实验室(上海AI实验室)的OpenDataLab团队开发。它主要用于将复杂的PDF文档、网页和电子书转换为易于分析的Markdown格式,同时支持多种语言的识别和处理。MinerU的功能包括布局检测、公式识别、光学字符识别(OCR)以及后处理管线,这些功能能够确保文档中的文本、图像、表格和公式等元素被准确提取和转换。

为什么选择它?优势在哪里?

MinerU在数据清洗领域具有以下独特优势:

  1. 复杂PDF文档处理能力:MinerU能够将包含图片、公式、表格等多种复杂元素的PDF文档精准转化为Markdown格式,这对于需要从专业文档中提取信息的用户来说是一个重要的功能。

  2. 高效的网页内容提取:除了PDF,MinerU还支持从网页和电子书中快速解析、抽取正式内容,这有助于提高AI语料准备的效率。

  3. 多模态数据支持:MinerU不仅处理文本数据,还能够识别和处理图像和表格,甚至将公式转换成LaTex,这增加了其在数据清洗中的应用范围。

  4. 高性能:MinerU在GitHub上的表现显示了其SOTA(State-of-the-Art,即最新技术水平)的效果,其性能媲美甚至超过了一些商业软件,这表明它在数据清洗效率上具有显著优势。

  5. 广泛的语言支持:MinerU支持176种语言,这使得它能够处理多种语言环境下的数据清洗任务。

  6. 开源和社区支持:作为一个开源项目,MinerU受益于社区的贡献和支持,这可能会带来持续的功能改进和技术更新。

这些优势使得MinerU在数据清洗领域具有较强的竞争力,特别是在处理复杂格式的文档和多语言数据时。

MinerU的安装和配置

  1. 使用Conda创建Python环境
    conda create -n MinerU python=3.10
    conda activate MinerU
    
  2. 安装MinerU依赖
    pip install magic-pdf[full-cpu]
    pip install detectron2 --extra-index-url https://myhloli.github.io/wheels/
    
  3. 下载模型权重
    您可以从Hugging Face模型库或魔搭社区模型库下载MinerU的模型权重。由于网络原因,国内用户访问Hugging Face可能会失败,因此建议使用ModelScope进行模型下载。在下载模型时,请确保检查模型文件的完整性,并根据需要进行配置。
    以下是具体的步骤:
  • 可以使用pip命令进行安装:
    pip install modelscope
    
  • 使用ModelScope的SDK下载模型权重,您可以使用以下Python代码来下载模型:
    from modelscope import snapshot_download
    model_dir = snapshot_download('wanderkid/PDF-Extract-Kit')
    
  • 如果您更倾向于使用Git命令来克隆模型仓库,可以使用以下命令:
    git clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git
    
  1. 配置MinerU
    根据您的环境配置magic-pdf.json文件,设置模型路径、输出目录等。

使用MinerU提取数据

  1. 命令行使用
    使用magic-pdf命令并指定PDF文件路径、模型路径等参数来提取数据。例如:

    magic-pdf pdf-command --pdf "path/to/your/document.pdf" --model_mode full
    
  2. 通过接口调用
    您可以通过编写Python代码来调用MinerU的接口,实现更灵活的数据提取流程。

注意事项
  • 确保您的环境中安装了所有必要的依赖,并且正确配置了模型权重。
  • 在使用MinerU时,您可以指定不同的模型模式,以平衡速度和精度。
  • 查看MinerU的官方文档和GitHub仓库获取更详细的安装和使用指南。

MinerU的详细安装和使用方法可以在其GitHub仓库的文档中找到,包括环境准备、安装Magic-PDF、下载模型权重文件、配置设置等步骤。

  • GitHub地址:https://github.com/opendatalab/MinerU

标签:RAG,AI,模型,MinerU,文档,PDF,pdf,数据
From: https://blog.csdn.net/u010690311/article/details/142125383

相关文章

  • 从数据洞察到智能决策:合合信息&infiniflow RAG技术的实战案例分享
    从数据洞察到智能决策:合合信息&infiniflowRAG技术的实战案例分享标题取自LLamaIndex,这个内容最早提出于今年2月份LlamaIndex官方博客。从22年chatGpt爆火,23年大模型尝鲜,到24年真正用AI落地业务场景,业界普遍都发现了从MVP到PMF不是那么容易的,具体的原因有非常......
  • uniapp 将数据存储在本地缓存setStorage及从本地缓存中异步获取getStorage
    一、uni.setStorage(OBJECT)将数据存储在本地缓存中指定的key中,会覆盖掉原来该key对应的内容,这是一个异步接口。HarmonyOSNext兼容性HarmonyOSNextHBuilderX4.23OBJECT参数说明参数名类型必填说明keyString是本地缓存中的指定的keydat......
  • 使用kube-prometheus部署k8s监控---超详细(Kubernetes Deployment of Kubernetes Moni
    ......
  • 利用AI驱动智能BI数据可视化-深度评测Amazon Quicksight(一)
    项目简介随着生成式人工智能的兴起,传统的BI报表功能已经无法满足用户对于自动化和智能化的需求,今天我们将介绍亚马逊云科技平台上的AI驱动数据可视化神器–Quicksight,利用生成式AI的能力来加速业务决策,从而提高业务生产力。借助Quicksight中集成的AmazonQ的创作功能,业务......
  • 2016 ACM/ICPC Asia Regional Qingdao Online(SDKD 2024 Summer Training Contest H2)
    A-ICountTwoThree题意给定n,求第一个\(\ge\)n的数k,且k=\(2^a3^b5^c7^d\)。思路考虑到样例很多,直接打表存入set省去数组排序操作,由于n$\le$1e9,所以只需要打到1e9后二分即可。(记得加上快读快写,T得饱饱的......
  • RAII思想
    c++RAII思想什么是RAII资源获取即初始化(ResourceAcquisitionIsInitialization,简称RAII)是一种C++编程技术,它将在使用前获取(分配的堆内存、执行线程、打开的套接字、打开的文件、锁定的互斥量、磁盘空间、数据库连接等有限资源)的资源的生命周期与某个对象的生命周期绑定在......
  • 表情迁移大法,LivePortrait 帮你快速处理图片!
    LivePortrait由快手可灵大模型团队开源,主要功能包括从单一图像生成生动动画、精确控制眼睛和嘴唇的动作、处理多个人物肖像的无缝拼接、支持多风格肖像、生成高分辨率动画等。该项目使用的是基于隐式关键点框架的AI肖像动画生成框架。它能够将驱动视频的表情和姿态迁移到静态或......
  • [Embodied AI Tutorial] The Basic Frameworks and Techniques for Embodied AI (Part
    目录EmbodiedAITutorial课程内容ModelingandapproachesforEmbodiedAIWorldModelGetaGoodPolicyPlanningAndControlSimulationtechnologyforEmbodiedAIRigidbodysimulationCamerasimulationAsserts相关链接资料查询EmbodiedAITutorial课程主页:slidesvide......
  • 利用投影技术增强RAG文档检索的多样性
    介绍检索增强生成(RAG)已成为语言模型中生成更准确和上下文相关输出的流行方法。通常,RAG中的检索步骤依赖于余弦相似度来识别top-n相关文档。然而,这种方法的一个缺点是它可以返回高度相似的文档,从而导致冗余和较少的响应多样性。这里提出了一种通过迭代调整所选文档向量来......
  • C# console application main method new and start wpf window application
    1.NewConsoleapplication;2.Addreference,PresentationCoreandWindowsBase3.usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Windows;usingSystem.Windows.Controls;using......