大模型简介
大语言模型,也称大型语言模型,是一种旨在理解和生成人类语言的人工智能模型。
检索增强生成。该架构巧妙地整合了从庞大知识库中检索到的相关信息,并以此为基础,指导大型语言模型生成更为精准的答案,从而显著提升了回答的准确性与深度。
LangChain 框架是一个开源工具,充分利用了大型语言模型的强大能力,以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口,从而简化应用程序的开发流程。具体来说,LangChain 框架可以实现数据感知和环境互动,也就是说,它能够让语言模型与其他数据来源连接,并且允许语言模型与其所处的环境进行互动。
使用 LLM API 开发应用
1. Prompt
我们每一次访问大模型的输入为一个 Prompt,而大模型给我们的返回结果则被称为 Completion。
2. Temperature
LLM 生成是具有随机性的,在模型的顶层通过选取不同预测概率的预测结果来生成最后的结果。我们一般可以通过控制 temperature 参数来控制 LLM 生成结果的随机性与创造性。
- 当取值较低接近 0 时,预测的随机性会较低,产生更保守、可预测的文本,不太可能生成意想不到或不寻常的词。
- 当取值较高接近 1 时,预测的随机性会较高,所有词被选择的可能性更大,会产生更有创意、多样化的文本。
3. System Prompt
System Prompt 并不在大模型本身训练中得到体现,而是大模型服务方为提升用户体验所设置的一种策略。
具体来说,在使用 ChatGPT API 时,你可以设置两种 Prompt:一种是 System Prompt,该种 Prompt 内容会在整个会话过程中持久地影响模型的回复,且相比于普通 Prompt 具有更高的重要性;另一种是 User Prompt,这更偏向于我们平时提到的 Prompt,即需要模型做出回复的输入。
搭建知识库
词向量及向量知识库介绍
词向量(Embeddings)是一种将非结构化数据,如单词、句子或者整个文档,转化为实数向量的技术。这些实数向量可以被计算机更好地理解和处理。
- 词向量比文字更适合检索。
- 词向量比其它媒介的综合信息能力更强。
构建词向量
- 使用各个公司的 Embedding API;
- 在本地使用嵌入模型将数据构建为词向量。
向量数据库
向量数据库是用于高效计算和管理大量向量数据的解决方案。它是一种专门用于存储和检索向量数据(embedding)的数据库系统。它与传统的基于关系模型的数据库不同,它主要关注的是向量数据的特性和相似性。
构建RAG应用
构建检索知识链
- 加载向量数据库。
- 创建一个 LLM。
- 构建检索问答链。
- 检索问答链效果测试。
- 添加历史对话的记忆框。
部署知识库助手
streamlit简介:一个用于快速创建数据应用程序的开源 Python 库
构建应用程序:
import streamlit as st
from langchain_openai import ChatOpenAI
st.title('
标签:简介,模型,st,api,openai,key,向量
From: https://www.cnblogs.com/1019-Yan/p/18378249