RAG中的文本切分策略详解
1. 选择RAG中的文本切分策略
1.1 不同的文本切分策略
-
1. CharacterTextSplitter - 这是最简单的方法。它默认基于字符(默认为"")来切割,并且通过字符的数量来衡量块的长度
-
2. RecursiveCharacterTextSplitter - 基于字符列表拆分文本。
-
3. - 基于不同的文件类型使用不同的切分方法(PDF、word、Python、Markdown等等)
-
4. - 基于滑动窗口的语义切分
那我们就开始看一下不同的textspliter切分效果如何吧!!!
1.2 CharacterTextSplitter
text = "大家好,我是双天至尊,欢迎关注我,让我们一起探索人工智能AI RAG吧!!!"
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator="",
chunk_size=5,
chunk_overlap=1,
length_function=len,
is_separator_regex=False
)
text_splitter.split_text(text=text)
切分原理
chunks = []
chunk_size = 5
chunk_overlap = 1
i = 0
while i < len(text):
# 开始位置
if i > 0:
start = max
标签:RAG,text,chunk,切分,详解,CharacterTextSplitter,文本
From: https://blog.csdn.net/wtl1992/article/details/145098487