RAG应用开发实战(01)-RAG应用框架和解析器

时间：2024-04-11 22:23:43浏览次数：31

标签：解析器 RAG 01 提取 PDF 文档格式内容解析

1 开源解析和拆分文档

第三方的工具去对文件解析拆分，去将我们的文件内容给提取出来，并将我们的文档内容去拆分成一个小的chunk。常见的PDF word mark down, JSON、HTML。都可以有很好的一些模块去把这些文件去进行一个东西去提取。

优势

支持丰富的文档类型
每种文档多样化选择
与开源框架无缝集成

但有时效果非常差，来内容跟原始的文件内容差别大。

2 PDF格式多样性

复杂多变的文档格式，提高解析效果十分困难。

3 复杂文档格式解析问题

文档内容质量将很大程度影响最终效果，文档处理过程涉及问题：

内容不完整

对文档的内容进行提取的时候，可能会发现提取出来的文档它的内容是会被截断的。跨页形式，提取出来它的上下页其实两部分内容就会被截断，导致文档内部分内容丢失，我们去解析图片或者是说双栏复杂的这种格式。它会有一部分内容的丢失。

内容错误

同一页PDF文件可能存在文本、表格、图片等混合。

PDF解析过程中，同一页它不同段落其实会也会有不同标准的一些格式。按通用格式去提取解析就遇到同页不同段落格式不标准情况。

文档格式

像常见PDF md文件，需要去支持把这些各类型的文档格式的文件都给提取。

边界场景

代码块还有单元格这些，都是我们去去解析一个复杂文档格式中会遇到一些问题。

4 PDF内容提取流程

5 为什么解析文档后需要做知识片段拆分

Token限制

绝大部分开源限制 <= 512 Tokens
bge_base、e5_large、m3e_base、text2vector_large_chinese、multilingnal-e5-base..

效果影响

召回效果：有限向量维度下表达较多的文档信息易产生失真
回答效果：召回内容中包含与问题无关信息对LLM增加干扰

成本控制

LLM费用：按照Token计费
网络费用：按照流量计费

6 Chunk拆分对最终效果的影响

Chunk太长

信息压缩失真

Chunk太短

表达缺失上下文；匹配分数容易变高

Chunk跨主题

内容关系脱节

原文连续内容（含表格）被截断

单个Chunk信息表达不完整，或含义相反

干扰信息

如空白、HTML、XML等格式，同等长度下减少有效信息、增加干扰信息

主题和关系丢失

缺失了主题和知识点之间的关系

7 改进知识的拆分方案

8 腾讯云向量数据库 AI套件

关注我，紧跟本系列专栏文章，咱们下篇再续！

作者简介：魔都技术专家，多家大厂后端一线研发经验，在分布式系统、和大数据系统等方面有多年的研究和实践经验，拥有从零到一的大数据平台和基础架构研发经验，对分布式存储、数据平台架构、数据仓库等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。

负责：

中央/分销预订系统性能优化

活动&优惠券等营销中台建设

交易平台及数据中台等架构和开发设计

车联网核心平台-物联网连接平台、大数据平台架构设计及优化

目前主攻降低软件复杂性设计、构建高可用系统方向。

参考：

编程严选网

本文由博客一文多发平台 OpenWrite 发布！

标签：解析器,RAG,01,提取,PDF,文档,格式,内容,解析
From： https://www.cnblogs.com/JavaEdge/p/18130135

手把手教你做阅读理解提高001-Camping:Finding Myself and Growing Strong-露营：在成长
PDF格式公众号回复关键字:ZKYDT001阅读理解技巧，在帮助读者有效获取和理解文本信息方面发挥着重要作用，熟练掌握如下6个技巧，可快速突破阅读理解1预览文章结构在开始深入阅读之前，快速浏览文章的标题、段落开头和结尾，可以迅速把握文章的主题、大致内容和结构标题通常能概括文......
[转帖][译] 使用 Linux tracepoint、perf 和 eBPF 跟踪数据包 (2017)
http://arthurchiao.art/blog/trace-packet-with-tracepoint-perf-ebpf-zh/ 译者序本文翻译自2017年的一篇英文博客 Tracingapacket’sjourneyusingLinuxtracepoints,perfandeBPF ，并添加了章节号以方便阅读。由于译者水平有限，本文不免存在遗漏或错误之处。如......
01_在NET中使用RabbitMQ
1.Linux上安装Docken服务器系统版本以及内核版本:cat/etc/redhat-release查看服务器内核版本:uname-r安装依赖包:yuminstall-yyum-utilsdevice-mapper-persistent-datalvm2设置阿里云镜像源:yum-config-manager--add-repohttps://mirrors.aliyun.com/docker-ce/linu......
[题解] <NOIP2017> 时间复杂度
[题解]NOIP2017时间复杂度题目描述小明正在学习一种新的编程语言A++，刚学会循环语句的他激动地写了好多程序并给出了他自己算出的时间复杂度，可他的编程老师实在不想一个一个检查小明的程序，于是你的机会来啦！下面请你编写程序来判断小明对他的每个程序给出的时间复杂度是否正......
蓝桥杯2016国赛-路径之谜
0.题目小明冒充X星球的骑士，进入了一个奇怪的城堡。城堡里边什么都没有，只有方形石头铺成的地面。假设城堡地面是nxn个方格。【如图1.png】所示。按习俗，骑士要从西北角走到东南角。可以横向或纵向移动，但不能斜着走，也不能跳跃。每走到一个新方格，就要向正北方和正西方各射一......
ESP01S固件烧录出现2-syncfail报错
起因整理手上开发板的时候突然发现有几片ESP01S和ESP12F买来一直没有使用，所以打算拿出来使用MQTT服务进行透传，但是在测试ESP01S的时候发现MQTT的指令一直在报错，之后一查固件版本号居然显示2015年构建的，所以从安信可处下载了新固件进行烧录.故障现象一直显示等待上电同步或显示......
洛谷题单指南-数学基础问题-P1029 [NOIP2001 普及组] 最大公约数和最小公倍数问题
原题链接：https://www.luogu.com.cn/problem/P1029题意解读：已知x，y，求有多少对p、q，使得p、q的最大公约数为x，最小公倍数为y。解题思路：枚举法即可。枚举的对象：枚举p，且p必须是x的倍数，还有p<=yq的计算：q=x*y/p，q要存在，必须x*y%p==0，且gcd(p,q)==x100分代码：#include......
IRLML0100TRPBF 电子元器件 MOSFET 100V SOT-23-3
IRLML0100TRPBF的封装形式是MicroSMD封装，引脚数为3。该器件广泛应用于各种电子设备和电路中，如开关电源、电池充电器、逆变器、电机驱动器等。IRLML0100TRPBF的规格信息：制造商:Infineon 产品种类:MOSFETRoH......
知识图谱增强的KG-RAG框架
昨天我们聊到KG在RAG中如何发挥作用，今天我们来看一个具体的例子。我们找到一篇论文：https://arxiv.org/abs/2311.17330，论文的研究人员开发了一种名为知识图谱增强的提示生成（KG-RAG）框架（https://github.com/BaranziniLab/KG_RAG），该框架利用生物医学知识图谱SPOKE与大型语言模型相结......
52 Things: Number 3: Computational and storage power of different form factors
52Things:Number3:Computationalandstoragepowerofdifferentformfactors52件事：数字3：不同外形尺寸的计算和存储能力Thisisthethirdinaseriesofblogpoststoaddressthelistof '52ThingsEveryPhDStudentShouldKnow' todoCryptography.Thes......

RAG应用开发实战(01)-RAG应用框架和解析器

1 开源解析和拆分文档

优势

2 PDF格式多样性

3 复杂文档格式解析问题

内容不完整

内容错误

文档格式

边界场景

4 PDF内容提取流程

5 为什么解析文档后需要做知识片段拆分

Token限制

效果影响

成本控制

6 Chunk拆分对最终效果的影响

7 改进知识的拆分方案

8 腾讯云向量数据库 AI套件

相关文章

赞助商

阅读排行

RAG应用开发实战(01)-RAG应用框架和解析器

1 开源解析和拆分文档

优势

2 PDF格式多样性

3 复杂文档格式解析问题

内容不完整

内容错误

文档格式

边界场景

4 PDF内容提取流程

5 为什么解析文档后需要做知识片段拆分

Token限制

效果影响

成本控制

6 Chunk拆分对最终效果的影响

7 改进知识的拆分方案

8 腾讯云向量数据库 AI****套件

相关文章

赞助商

阅读排行

8 腾讯云向量数据库 AI套件