首页 > 其他分享 >LlamaParse - 文档解析

LlamaParse - 文档解析

时间:2024-09-28 09:20:57浏览次数:3  
标签:file parser 文档 llama pdf LlamaParse 解析 my

文章目录


一、关于 LlamaParse


LlamaParse是LlamaCloud的一部分,是一个GenAI原生文档解析器,可以为任何下游LLM用例(RAG、代理)解析复杂的文档数据。

它真的很擅长以下方面:

  • ✅广泛的文件类型支持:使用文本、表格、视觉元素、奇怪的布局等解析各种非结构化文件类型(. pdf、.pptx、.docx、.xlsx、.html)。
  • ✅表识别:将嵌入的表准确地解析为文本和半结构化表示。
  • ✅多模态解析和分块:将视觉元素(图像/图表)提取为结构化格式,并使用最新的多模态模型返回图像块。
  • ✅自定义解析:输入自定义提示指令以按您想要的方式自定义输出。

LlamaParse直接与LlamaIndex集成。


价格

免费计划每天最多1000页。默认情况下,付费计划每周免费7k页+每增加一页0.3c。有一个沙盒可用于测试APIhttps://cloud.llamaindex.ai/parse↗

如果您是一家对企业RAG解决方案和/或LlamaParse的大容量/本地使用感兴趣的公司,请与我们交谈


LlamaCloud

LlamaCloud是 LlamaIndex 的e2e企业RAG平台,它提供开箱即用、生产就绪的连接器、索引和对复杂数据源的检索。LlamaIndex 提供SaaS和VPC选项。

LlamaCloud目前可通过waitlist获得(通过创建一个帐户加入)。如果您对最先进的质量和集中您的RAG工作感兴趣,请与我们联系


例子

可以在示例文件夹中找到几个端到端索引示例


二、使用入门

首先,登录并从https://cloud.llamaindex.ai/api-key↗获取api密钥。

然后,确保您安装了最新的LlamaIndex版本。

**注意:**如果您从v0.9升级。X,我们建议遵循我们的迁移指南,并先卸载以前的版本。

pip uninstall llama-index  # run this if upgrading from v0.9.x or older
pip install -U llama-index --upgrade --no-cache-dir --force-reinstall

最后,安装软件包:

pip install llama-parse

现在您可以运行以下命令来解析您的第一个PDF文件:

import nest_asyncio

nest_asyncio.apply()

from llama_parse import LlamaParse

parser = LlamaParse(
    api_key="llx-...",  # can also be set in your env as LLAMA_CLOUD_API_KEY
    result_type="markdown",  # "markdown" and "text" are available
    num_workers=4,  # if multiple files passed, split in `num_workers` API calls
    verbose=True,
    language="en",  # Optionally you can define a language, default=en
)

# sync
documents = parser.load_data("./my_file.pdf")

# sync batch
documents = parser.load_data(["./my_file1.pdf", "./my_file2.pdf"])

# async
documents = await parser.aload_data("./my_file.pdf")

# async batch
documents = await parser.aload_data(["./my_file1.pdf", "./my_file2.pdf"])

三、与文件对象一起使用

您可以直接解析文件对象:

import nest_asyncio

nest_asyncio.apply()

from llama_parse import LlamaParse

parser = LlamaParse(
    api_key="llx-...",  # can also be set in your env as LLAMA_CLOUD_API_KEY
    result_type="markdown",  # "markdown" and "text" are available
    num_workers=4,  # if multiple files passed, split in `num_workers` API calls
    verbose=True,
    language="en",  # Optionally you can define a language, default=en
)

with open("./my_file1.pdf", "rb") as f:
    documents = parser.load_data(f)

# you can also pass file bytes directly
with open("./my_file1.pdf", "rb") as f:
    file_bytes = f.read()
    documents = parser.load_data(file_bytes)

四、SimpleDirectoryReader

您还可以将解析器集成 为SimpleDirectoryReader中的默认PDF加载器:

import nest_asyncio

nest_asyncio.apply()

from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader

parser = LlamaParse(
    api_key="llx-...",  # can also be set in your env as LLAMA_CLOUD_API_KEY
    result_type="markdown",  # "markdown" and "text" are available
    verbose=True,
)

file_extractor = {".pdf": parser}
documents = SimpleDirectoryReader(
    "./data", file_extractor=file_extractor
).load_data()

完整的SimpleDirectoryReader留档可以在LlamaIndex文档中找到。


2024-09-25(二)

标签:file,parser,文档,llama,pdf,LlamaParse,解析,my
From: https://blog.csdn.net/lovechris00/article/details/142497594

相关文章

  • 一站式解决方案:10款PM工程项目管理软件深度解析
    市面上主流的10款PM工程项目管理系统推荐:PingCode、Worktile、飞书、金和项目管理、致远协同办公、Asana、Trello、JIRA、Basecamp、Monday.com。在现代企业管理中,项目的复杂性常常让人感到无从应对,错失进度和预算控制的情况屡见不鲜。选择合适的PM工程项目管理系统,不仅可以......
  • freeRTOS源码解析4--tasks.c 6
    4.2.14退出阻塞--xTaskAbortDelay接口:BaseType_txTaskAbortDelay(TaskHandle_txTask)形参1:xTask,想要退出阻塞态的任务;返回:pdPASS:退出成功;pdFAIL:退出失败。1BaseType_txTaskAbortDelay(TaskHandle_txTask)2{3TCB_t*pxTCB=xTask;4BaseType_tx......
  • 【AIGC】ChatGPT提示词解析:如何生成爆款标题、节日热点文案与完美文字排版
    博客主页:[小ᶻZ࿆]本文专栏:AIGC|ChatGPT文章目录......
  • 基于SpringBoot+Vue+uniapp的公考学习平台的详细设计和实现(源码+lw+部署文档+讲解等)
    文章目录前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我代码参考数据库参考源码获取前言......
  • 队列的深度解析:链式队列的实现
    引言队列是一种广泛应用于计算机科学的数据结构,具有先进先出(FIFO)的特性。在许多实际应用中,例如任务调度、缓冲区管理等,队列扮演着重要角色。本文将详细介绍队列的基本概念,并通过链表实现一个简单的队列。一、基本概念1.1定义队列是一种线性数据结构,遵循先进先出(FIFO,Firs......
  • 基于C#图书管理系统 网上图书预约系统的设计(源码+文档)
    目录一.研究目的1.1背景及意义1.2主要研究思路和方法二.需求分析三.数据库设计四.页面展示五.免费源码获取一.研究目的1.1背景及意义  21世纪初,人类社会继工业文明之后,进入知识经济与信息时代。高新技术的迅猛发展,信息技术的广泛应用,全球经济趋于一体化。在新经......
  • 基于Java+Springboot+Vue开发的家具管理系统源码+开发文档
    项目简介该项目是基于Java+Springboot+Vue开发的家具管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Java编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Java的家具管理系统项目,大学生可以在实践中学习和提升自己......
  • 【含文档】基于Springboot+Vue的高校大学生心理咨询管理系统(含源码+数据库+lw)
    1.开发环境开发系统:Windows10/11架构模式:MVC/前后端分离JDK版本:JavaJDK1.8开发工具:IDEA数据库版本:mysql5.7或8.0数据库可视化工具:navicat服务器:SpringBoot自带apachetomcat主要技术:Java,Springboot,mybatis,mysql,vue2.视频演示地址3.功能系统主......
  • 《破晓传说》d3dcompiler_43.dll缺失启动遇阻?d3dcompiler_43.dll丢失问题全解析与解决
    《破晓传说》在启动过程中遇到d3dcompiler_43.dll缺失的问题,确实会导致游戏无法正常运行。这个问题通常与DirectX组件的完整性或兼容性有关。以下是对d3dcompiler_43.dll丢失问题的全解析与解决方案:问题解析d3dcompiler_43.dll是什么?d3dcompiler_43.dll是DirectX的一部分,它......
  • 蓝牙定位导航系统深度解析:技术原理、实现步骤与实战应用
    随着物联网(IoT)技术的飞速发展,蓝牙低功耗(BLE)技术凭借其低功耗、高兼容性及短距离通信的优势,在各类定位系统中占据了重要地位。其中,蓝牙定位导航系统作为室内定位解决方案的佼佼者,正逐步改变着我们的生活方式。本文将深入探讨蓝牙定位导航系统的技术原理、关键技术、实现步骤,并通......