AI大模型企业应用实战(19)-RAG应用框架和解析器

时间：2024-06-24 10:32:32浏览次数：15

标签：RAG 提取 19 PDF 企业应用文档格式内容解析

1 开源解析和拆分文档

第三方工具去对文件解析拆分，将文件内容给提取出来，并将我们的文档内容去拆分成一个小的chunk。常见的PDF word mark down, JSON、HTML。都可以有很好的一些模块去把这些文件去进行一个东西去提取。

1.1 优势

支持丰富的文档类型
每种文档多样化选择
与开源框架无缝集成

但有时效果非常差，来内容跟原始的文件内容差别大。

2 PDF格式多样性

复杂多变的文档格式，提高解析效果十分困难。

3 复杂文档格式解析问题

文档内容质量将很大程度影响最终效果，文档处理过程涉及问题：

3.1 内容不完整

对文档的内容进行提取的时候，可能会发现提取出来的文档它的内容是会被截断的。跨页形式，提取出来它的上下页其实两部分内容就会被截断，导致文档内部分内容丢失，我们去解析图片或者是说双栏复杂的这种格式。它会有一部分内容的丢失。

3.2 内容错误

同一页PDF文件可能存在文本、表格、图片等混合。

PDF解析过程中，同一页它不同段落其实会也会有不同标准的一些格式。按通用格式去提取解析就遇到同页不同段落格式不标准情况。

3.3 文档格式

像常见PDF md文件，需要去支持把这些各类型的文档格式的文件都给提取。

3,4 边界场景

代码块还有单元格这些，都是我们去去解析一个复杂文档格式中会遇到一些问题。

4 PDF内容提取流程

5 为啥解析文档后需要做知识片段拆分？

5.1 Token限制

绝大部分开源限制 <= 512 Tokens
bge_base、e5_large、m3e_base、text2vector_large_chinese、multilingnal-e5-base..

5.2 效果影响

召回效果：有限向量维度下表达较多的文档信息易产生失真
回答效果：召回内容中包含与问题无关信息对LLM增加干扰

5.3 成本控制

LLM费用：按照Token计费
网络费用：按照流量计费

6 Chunk拆分对最终效果的影响

Chunk太长

信息压缩失真

Chunk太短

表达缺失上下文；匹配分数容易变高

Chunk跨主题

内容关系脱节

原文连续内容（含表格）被截断

单个Chunk信息表达不完整，或含义相反

干扰信息

如空白、HTML、XML等格式，同等长度下减少有效信息、增加干扰信息

主题和关系丢失

缺失了主题和知识点之间的关系

7 改进知识的拆分方案

关注我，紧跟本系列专栏文章，咱们下篇再续！

作者简介：魔都架构师，多家大厂后端一线研发经验，在分布式系统设计、数据平台架构和AI应用开发等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。

负责：

中央/分销预订系统性能优化

活动&券等营销中台建设

交易平台及数据中台等架构和开发设计

车联网核心平台-物联网连接平台、大数据平台架构设计及优化

LLM应用开发

目前主攻降低软件复杂性设计、构建高可用系统方向。

参考：

编程严选网

本文由博客一文多发平台 OpenWrite 发布！

标签：RAG,提取,19,PDF,企业应用,文档,格式,内容,解析
From： https://www.cnblogs.com/JavaEdge/p/18264512

[图解]企业应用架构模式2024新译本讲解17-活动记录1
100:00:01,070-->00:00:04,180下一个我们要说的就是200:00:04,190-->00:00:06,740活动记录模式了300:00:07,640-->00:00:11,210同样是数据源架构模式400:00:12,300-->00:00:18,480里面的一个，活动记录500:00:18,490-->00:00:21,710我们看这里，定义，active......
【日记】原来真的有人不适合谈恋爱（1194 字）
正文21日正是周五，夏至。全年当中，白天时长最长的一天。而恰好那天也是银行扣息的日子。所以很忙，我差点没能走掉。所幸最终还是有惊无险。到斯的家里，是晚上9点钟。比我想得要早。这个周周四，他过生日。但是那天因为上班，所以移到了周末。不是法定节假日，很普通的一个......
认识Retrieval Augmented Generation（RAG）
什么是RAG？Retrieval-AugmentedGeneration(RAG)是一种结合信息检索和生成式AI技术的框架。它通过从外部数据源检索信息，增强语言模型（如GPT-3）的生成能力，从而提供更加准确和相关的回答。RAG的组成部分信息检索模块（Retriever）功能：从预先构建的知识库或文档库中检索与用......
AI大模型企业应用实战(18)-“消灭”LLM幻觉的利器 - RAG介绍
大模型在一定程度上去改变了我们生活生工作的思考的方式，然后也越来越多的个人还有企业在思考如何将大模型去应用到更加实际的呃生产生活中去，希望大语言模型能够呃有一些更多企业级别生产落地的实践，然后去帮助我们解决一些业务上的问题。目前1LLM的问题1.1幻觉LLM因为是一个预......
在Linux中，如何使用 tcpdump 监听主机为 192.168.1.1，tcp 端⼝为 80 的数据，并将将输出结
在Linux中，要使用tcpdump监听目标为主机IP为192.168.1.1，且TCP端口为80的数据包，并将输出结果保存到名为tcpdump.log的文件中，可以按照以下步骤操作：打开终端：首先，你需要在具有足够权限的用户账户下打开一个终端窗口。通常，root权限是必要的，因为普通用户可能无法监听网络接口的所有流......
代码随想录算法训练营第45天 | 198.打家劫舍、213.打家劫舍II 、337.打家劫舍III
今天就是打家劫舍的一天，这个系列不算难，大家可以一口气拿下。198.打家劫舍视频讲解：https://www.bilibili.com/video/BV1Te411N7SXhttps://programmercarl.com/0198.打家劫舍.html/***@param{number[]}nums*@return{number}*/varrob=function(nums){const......
AI 大模型企业应用实战(10)-LLMs和Chat Models
1模型来看两种不同类型的模型--LLM和聊天模型。然后，它将介绍如何使用提示模板来格式化这些模型的输入，以及如何使用输出解析器来处理输出。LangChain中的语言模型有两种类型：1.1ChatModels聊天模型通常由LLM支持，但专门针对会话进行了调整。提供者API使用与纯文本补全模......
oracle 19c 安装、卸载
Oracle数据库19c下载安装安装登录oracle官网进入下载界面https://www.oracle.com/cn/database/technologies/oracle-database-software-downloads.html#db_free选择OracleDatabase19cforMicrosoftWindowsx64(64-bit)下载将下载下来的zip文件解压缩，点击setup.exe运行安......
【java问答小知识19】一些Java基础的知识，用于想学习Java的小伙伴们建立一些简单的认知
Java中的"java.util.concurrent.locks.StampedLock"的"tryConvertToReadLock()"方法如何工作？回答：尝试将当前的写锁转换为读锁，并返回一个表示锁定状态的戳记。Java中的"java.util.concurrent.locks.StampedLock"的"tryConvertToWriteLock()"方法有什么特点？回答：尝试将当......
AI 大模型企业应用实战(07)-LangChain的Hello World项目
pipinstall--upgradelangchain==0.0.279-ihttps://pypi.org/simple1创建一个LLM自有算力平台+开源大模型（需要有庞大的GPU资源）企业自己训练数据第三方大模型API（openai/百度文心/阿里通义千问...）数据无所谓让LLM给孩子起具有中国特色的名字。在LangChain中最基本的功......