前一段时间,各个大模型在争斗:谁能携带更长、更大的上下文 Prompt,比如 Kimi 说 200 万字,阿里通义千问又说自己能达 1000 万字;大家都知道 Prompt 很重要,但是 RAG 和 长的上下文文本携带 是两个不同的技术方向。
RAG
先来简单介绍一下什么是 RAG (增强搜索生成),很简单:
当我们问 ChatGPT 一个比较专业的问题时,他就是开始回答轱辘话了,通用大模型在专业领域的应答能力有限;
所有这个时候,我们通过丰富 Prompt 给他介绍一下相关背景,然后大模型就有更专业的应答能力了。
这个丰富 Prompt 的过程就是 RAG —— 增强搜索生成。
实际操作会更复杂一点,但是原理就是这么一个原理,如图:
如上图,当我们问大模型:“五四运动的历史意义”,它可能泛泛而谈;此时,此时,我们引入了专业知识库(书、教材、论文文献等),然后通过提取文本形成区块,形成向量库;当我们再次提问的时候,会结合向量库形成一个更加完备的Prompt ,此时,大模型就能很好地回答我们的专业问题了!
言而总之,大数据时代,很多公司都拥有大量的专有数据,如果能基于它们创建 RAG,将显著提升大模型的特异性。
构建 RAG
本篇不是想讲 RAG 概念,而是想再深入探索一下:RAG 的构建;
通常来说,构建 RAG 的过程有:
- 将文档分割成均匀的块,每个块都是一段原始文本;
- 为每个块生成嵌入(例如 OpenAl 嵌入,sentence_transformer);
- 将每个块存储在向量数据库中;
- 从向量数据库集合中找到最相似的Top-k块;
- 接入LLM响应合成模块;
简易 RAG:
ini复制代码!pip install llama-index
# My OpenAI Key
import os
os.environ['OPENAI_API_KEY'] = ""
import logging
import sys
import requests
logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))
from llama_index import VectorStoreIndex, SimpleDirectoryReader
from IPython.display import Markdown, display
# download paul graham's essay
response = requests.get("https://www.dropbox.com/s/f6bmb19xdg0xedm/paul_graham_essay.txt?dl=1")
essay_txt = response.text
with open("pg_essay.txt", "w") as fp:
fp.write(essay_txt)
# load documents
documents = SimpleDirectoryReader(input_files=['pg_essay.txt']).load_data()
index = VectorStoreIndex.from_documents(documents)
# set Logging to DEBUG for more detailed outputs
query_engine = index.as_query_engine(similarity_top_k=2)
response = query_engine.query(
"What did the author do growing up?",
)
print(response.source_nodes[0].node.get_text())
以上代码是一个简单的 RAG 管道,演示了加载一篇专业文章,对其进行分块,并使用 llama-index 库创建 RAG 管道。这种简易的 RAG 适合一些小而美的专业问题。
现实世界中,专业问题往往会更加复杂。
对于很多人来说,RAG 的引入、与大模型的对接是一个黑盒,任何微小参数的变动都将引起结果发生很大的变化。
广泛理解,在检索中,容易造成的问题有:
- 低精度:检索集合中并非所有片段都相关—— 存在幻觉问题和中间丢失问题
- 低召回率:并非所有相关片段都被检索到——缺乏足够的上下文让LLM合成答案(这也印证了扩张上下文容量的必要性)
- 信息过时:数据冗余或已过时
这样会导致:模型编造不符合上下文语义的答案/模型没有回答问题/模型编造有害的或带有偏见的答案
接下来,一起揭秘:RAG 对接大模型的黑盒 —— 9 大问题
来源:Seven Failure Points When Engineering a Retrieval Augmented Generation System
1. 源数据本身缺少上下文
这个很好理解, 你想要问专业的历史问题,就需要建立历史知识库,而不是对接一个生物数据库;
如果源数据质量较差,例如包含冲突信息,无论我们如何构建 RAG 管道,最终也无法从提供的垃圾中生成黄金。
有一些常见的策略可以清理数据,举几个例子:
- 去除噪声和不相关信息:包括去除特殊字符、停顿词(像“the”和“a”这样的常用词)和HTML标签。
- 识别并纠正错误:包括拼写错误、打字错误和语法错误;拼写检查器和语言模型之类的工具可以帮助解决这些问题。
- 去重:移除重复记录或在偏置检索过程的相似记录。
这里推荐:Unstructured.io 是一套核心库,能帮助解决数清理,值得一试。
还有一个提示的小技巧:直接告诉大模型,“如果你遇到了你不懂的知识点,请直接告诉我:不知道”;
或者你还可以在每个 chunk 里面添加上下文;
2. 关键信息出现权重较低
理论上来讲,重要的信息都要出现在提示语的头部,如果其被忽视,将导致大模型无法准确响应。
所以,RAG 应该给关键信息以足够高的权重设置,一般有两种解决方案:
- 调整块-chunk_size 的大小
- 调整相似度 top-k(similarity_top_k)参数
对检索过程中的效率和有效性进行设置,代码示例如下:
ini复制代码# contains the parameters that need to be tuned
param_dict = {"chunk_size": [256, 512, 1024], "top_k": [1, 2, 5]}
# contains parameters remaining fixed across all runs of the tuning process
fixed_param_dict = {
"docs": documents,
"eval_qs": eval_qs,
"ref_response_strs": ref_response_strs,
}
def objective_function_semantic_similarity(params_dict):
chunk_size = params_dict["chunk_size"]
docs = params_dict["docs"]
top_k = params_dict["top_k"]
eval_qs = params_dict["eval_qs"]
ref_response_strs = params_dict["ref_response_strs"]
# build index
index = _build_index(chunk_size, docs)
# query engine
query_engine = index.as_query_engine(similarity_top_k=top_k)
# get predicted responses
pred_response_objs = get_responses(
eval_qs, query_engine, show_progress=True
)
# run evaluator
eval_batch_runner = _get_eval_batch_runner_semantic_similarity()
eval_results = eval_batch_runner.evaluate_responses(
eval_qs, responses=pred_response_objs, reference=ref_response_strs
)
# get semantic similarity metric
mean_score = np.array(
[r.score for r in eval_results["semantic_similarity"]]
).mean()
return RunResult(score=mean_score, params=params_dict)
param_tuner = ParamTuner(
param_fn=objective_function_semantic_similarity,
param_dict=param_dict,
fixed_param_dict=fixed_param_dict,
show_progress=True,
)
results = param_tuner.tune()
3. 重排序后缺少上下文
数据表明,将 RAG 检索结果发送给大模型前,对其重排序会显著提高 RAG 性能:
ini复制代码import os
from llama_index.postprocessor.cohere_rerank import CohereRerank
api_key = os.environ["COHERE_API_KEY"]
cohere_rerank = CohereRerank(api_key=api_key, top_n=2) # return top 2 nodes from reranker
query_engine = index.as_query_engine(
similarity_top_k=10, # we can set a high top_k here to ensure maximum relevant retrieval
node_postprocessors=[cohere_rerank], # pass the reranker to node_postprocessors
)
response = query_engine.query(
"What did Elon Musk do?",
)
这段 LlamaIndex 代码显示了二者区别,不使用重排器导致结果不准确;
但是,通过重排可能导致上下文的缺失,所以需要更好的检索策略:
- 对每个索引基本检索
- 高级检索和搜索
- 自动检索
- 知识图谱检索器
- 组合/层次化检索器
如果检索效果仍不强,可以考虑基于数据微调模型,加入嵌入模型,通过自定义嵌入模型帮助原始数据更准确的转为向量数据库。
4. 未提取上下文
当信息过载时,还可能出现:未提取上下文,关键信息遗漏,影响回答质量。
我们可以尝试将提示压缩,在检索步骤之后,把数据喂给 LLM 之前通过 LongLLMLingua 压缩上下文,可以使成本更低、性能更好。
ini复制代码from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.response_synthesizers import CompactAndRefine
from llama_index.postprocessor.longllmlingua import LongLLMLinguaPostprocessor
from llama_index.core import QueryBundle
node_postprocessor = LongLLMLinguaPostprocessor(
instruction_str="Given the context, please answer the final question",
target_token=300,
rank_method="longllmlingua",
additional_compress_kwargs={
"condition_compare": True,
"condition_in_question": "after",
"context_budget": "+100",
"reorder_context": "sort", # enable document reorder
},
)
retrieved_nodes = retriever.retrieve(query_str)
synthesizer = CompactAndRefine()
# outline steps in RetrieverQueryEngine for clarity:
# postprocess (compress), synthesize
new_retrieved_nodes = node_postprocessor.postprocess_nodes(
retrieved_nodes, query_bundle=QueryBundle(query_str=query_str)
)
print("\n\n".join([n.get_content() for n in new_retrieved_nodes]))
response = synthesizer.synthesize(query_str, new_retrieved_nodes)
就像人写文章一样,虎头凤尾猪肚,重要的东西放在首位,对于大模型提示语也是一样:
研究表明:自注意力机制对头部信息关注更多。
5. 输出格式错误
RAG 通道需要输出 JSON 答案,我们也要保证输出格式:
- 使用OpenAI函数调用+ JSON模式
- 使用令牌级提示(LMQL,Guidance)
- LlamaIndex支持与其他框架提供的输出解析模块集成,例如Guardrails和LangChain。
参见以下 LangChain 输出解析模块的示例代码:
ini复制代码from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.core.output_parsers import LangchainOutputParser
from llama_index.llms.openai import OpenAI
from langchain.output_parsers import StructuredOutputParser, ResponseSchema
# load documents, build index
documents = SimpleDirectoryReader("../paul_graham_essay/data").load_data()
index = VectorStoreIndex.from_documents(documents)
# define output schema
response_schemas = [
ResponseSchema(
name="Education",
description="Describes the author's educational experience/background.",
),
ResponseSchema(
name="Work",
description="Describes the author's work experience/background.",
),
]
# define output parser
lc_output_parser = StructuredOutputParser.from_response_schemas(
response_schemas
)
output_parser = LangchainOutputParser(lc_output_parser)
# Attach output parser to LLM
llm = OpenAI(output_parser=output_parser)
# obtain a structured response
query_engine = index.as_query_engine(llm=llm)
response = query_engine.query(
"What are a few things the author did growing up?",
)
print(str(response))
Pydantic 库可提供大型语言模型结构化:
python复制代码from pydantic import BaseModel
from typing import List
from llama_index.program.openai import OpenAIPydanticProgram
# Define output schema (without docstring)
class Song(BaseModel):
title: str
length_seconds: int
class Album(BaseModel):
name: str
artist: str
songs: List[Song]
# Define openai pydantic program
prompt_template_str = """\
Generate an example album, with an artist and a list of songs. \
Using the movie {movie_name} as inspiration.\
"""
program = OpenAIPydanticProgram.from_defaults(
output_cls=Album, prompt_template_str=prompt_template_str, verbose=True
)
# Run program to get structured output
output = program(
movie_name="The Shining", description="Data model for an album."
)
6. 输出不清晰
还有问题是:输出的内容不清晰,导致大模型回答也不尽如人意,需要多轮对话、检索才能得到答案;
解决方案,同样可以优化检索策略:
- 检索从小到大
- 使用句子窗口检索
- 递归检索
7. 输出不完整
有时候问法不一样,结果就不一样:比如问:
- “文档A、B、C的主要观点”;
- “文档A的观点、文档B的观点、文档C的观点、”
这两个问题结果是不一样的,后者会更加全面;改进 RAG 推理能力的一个好方法是添加一个查询理解层 —— 在实际查询向量存储之前添加查询转换。
有 4 种不同的查询转换:
- 路由:保留初始查询,同时精确定位它所涉及的适当工具子集。然后,指定这些工具为合适的选项。
- 查询重写:保留选定的工具,以多种方式重新构建查询,以便在同一组工具上应用。
- 子问题:将查询分解为几个较小的问题,每个问题针对由其元数据确定的不同工具。
- ReAct代理工具选择:基于原始查询,确定使用哪个工具,并制定在该工具上运行的具体查询。
8. 无法扩展到更大的数据量
当处理很大的专业数据库、私人数据库时,RAG 通道会出现处理很慢甚至无法处理的情况;
可以采取并行化提取管道,比如:
● 并行化文档处理
● HuggingFace TEI
● RabbitMQ 消息队列
● AWS EKS 集群
实际上,LlamaIndex 已经提供并行处理功能,文档处理速度提高 15 倍:
ini复制代码# load data
documents = SimpleDirectoryReader(input_dir="./data/source_files").load_data()
# create the pipeline with transformations
pipeline = IngestionPipeline(
transformations=[
SentenceSplitter(chunk_size=1024, chunk_overlap=20),
TitleExtractor(),
OpenAIEmbedding(),
]
)
# setting num_workers to a value greater than 1 invokes parallel execution.
nodes = pipeline.run(documents=documents, num_workers=4)
9. 速率限制
如果大模型的 API 允许配置多个密钥、一个应用轮番调用,可以采用分布式系统,将请求分散到多个 RAG 通道,即使通道有速率限制,也能通过负载均衡、动态分配请求的方式来解决这个速率限制问题。
总结
本篇提供了开发 RAG 通道 9 个痛点,并针对每个痛点都给了相应的解决思路。
RAG 是非常重要的专用检索+通用大模型的技术手段,在赋能模型、满足特定化场景中非常重要!
后续有机会,本瓜还会介绍相关内容,敬请期待。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。