技术背景介绍
老铁们,相信你们都知道,PDF格式的文档在信息存储上有它的独有之处,尤其是那些长篇大论的年报或者技术白皮书之类。不过问题来了,这些文档里的非结构化数据本身不太容易直接喂给语言模型(LLM)。所以,今天我们就来聊聊如何搭建一个能从PDF文件中回答问题的系统——也就是利用RAG(检索增强生成)流水线来完成这个任务。
这次教程会简单带过一些在我们RAG教程中更深入探讨的概念,比如文档加载器、向量存储等。如果你对这些不太熟悉,建议先浏览一遍相关内容。
原理深度解析
文档加载
首先,我们需要选择一个PDF加载进来使用。这里,为了演示,我选择了耐克年度公开的SEC报告。你可以换成你喜欢的PDF。
代码示例
%pip install -qU pypdf langchain_community
from langchain_community.document_loaders import PyPDFLoader
file_path = "../example_data/nke-10k-2023.pdf"
loader = PyPDFLoader(file_path)
docs = loader.load()
print(len(docs))
我们使用的是由pypdf
包驱动的PDF加载器,它会读取PDF中的文本并生成每页的LangChain文档。
问答系统构建
接下来,我们需要把加载的文档准备好以便后续检索。通过text splitter
,我们先把文档分割成较小的文本块,这样更容易放进LLM的上下文窗口。然后,我们将这些文本块加载到向量存储中,并创建一个retriever
:
代码示例
%pip install langchain_chroma langchain_openai
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)
vectorstore = Chroma.from_documents(documents=splits, embedding=OpenAIEmbeddings())
retriever = vectorstore.as_retriever()
创建RAG流水线
为了构建最终的RAG流水线,我们会利用一些内置的助手函数:
代码示例
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
system_prompt = (
"You are an assistant for question-answering tasks. "
"Use the following pieces of retrieved context to answer "
"the question. If you don't know the answer, say that you "
"don't know. Use three sentences maximum and keep the "
"answer concise."
"\n\n"
"{context}"
)
prompt = ChatPromptTemplate.from_messages(
[
("system", system_prompt),
("human", "{input}"),
]
)
question_answer_chain = create_stuff_documents_chain(llm, prompt)
rag_chain = create_retrieval_chain(retriever, question_answer_chain)
results = rag_chain.invoke({"input": "What was Nike's revenue in 2023?"})
results
此处,我们的RAG链将返回一个答案以及用于生成答案的上下文文档。
优化建议分享
如果你发现系统在处理大文档时逐渐变慢,可以尝试使用代理服务来提高稳定性。建议大家多尝试不同的向量存储方案,比如Chroma
,来优化性能。
补充说明和总结
说白了,这套系统就是通过构建RAG链来从PDF中获取答案。文章中用到的技术和工具,比如LangChain和Chroma,都是为了实现这个目标而选的。我个人一直在用 https://yunwu.ai 提供的一站式大模型解决方案,效果不错。
今天的技术分享就到这里,希望对大家有帮助。开发过程中遇到问题也可以在评论区交流~
—END—
标签:RAG,chain,langchain,文档,import,PDF,加载 From: https://blog.csdn.net/srudfktuffk/article/details/144892692