书生开源大模型训练营-第3讲-笔记

时间：2024-02-16 22:12:49浏览次数：30

标签：检索 RAG 训练营 LangChain 书生开源应用模型向量

1、大模型的局限性

a、知识只能截止到训练时间；

b、垂直领域的专业能力有限；

c、训练成本高，定制化成本高；

2、解决大模型局限性的两种思路RAG VS FT

RAG：外挂一个知识库，通过检索得到文档，再将检索到文档和问题一起输入给大模型来生成答案。优点：成本极低、知识可更新；缺点：受限于基座大模型的能力、在跨度大的文档中总结和生成效果；

FT：在基座模型后，用一个小的新的训练集继续微调训练，从而在新的领域的表现更好。优点：充分拟合个性化知识，特别是隐含知识、有基座模型的广泛知识域；缺点：成本高、知识无法更新

3、RAG原理：

4、LangChain简介

LangChain开源大模型开发框架，提供大模型开发接口，帮助开发者快速搭建大模型应用。

Chains是LangChain最核心组件，是把一些列大模型操作封装在一起，构成一个端到端应用。比如检索问答链可以把RAG中涉及到的向量数据库，问答生成等都串在一起，快速构建一个RAG应用。

5、基于LangChain构建RAG应用全流程：

6、RAG应用之搭建向量数据库

a、源文件加载为文本字符串：不同格式的源文件对应不同类型加载器，加载完成后都变成统一的字符串。

b、字符分割：将文本字符串切割为固定长度的字符串，可以有重叠；

c、利用向量数据库将分割后的文本串变成向量存起来，比较适合入门的向量数据库chroma；

7、RAG应用之搭建知识库助手

InternLM提供了和LangChain的集成，可以嵌入到LangChain的RAG链中

8、RAG应用优化

a、主要待优化点：检索精度、Prompt性能

b、检索精度提升：基于语义来切分chunk，为chunk建立索引

c、Prompt性能：Prompt策略优化，激发大模型的潜能

9、RAG应用之Web Demo

常用部署框架:Gradio、StreamIt

10、实战

标签：检索,RAG,训练营,LangChain,书生,开源,应用,模型,向量
From： https://www.cnblogs.com/littlesuccess/p/18015030

开源免费的专注于建立大型个人知识库推荐-Trilium Notes
TriliumNotes是一个分层的笔记应用程序，专注于建立大型个人知识库。支持相当丰富的markdown，包括mermaid和latex，而且即时渲染，和typora一样。支持代码类型的笔记，有高亮。 Trilium与其说是笔记软件，不如说是个人wiki。个人知识数据库、收藏夹、代码块、手账、思......
dlt开源数据加载工具
dlt是一个开源数据加载工具，基于python开发特点一个库 dlt就是一个python包，其他地方需要我们自己开发非黑盒系统我们可以基于代码灵活的进行自定义开发基于乘法的玩法，而不是加法自动代码生成包含了类似dbt的一些处理cli基于python的玩法 dlt对于数据的处理是基于......
Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试
2023年10月，我们发表了一篇关于TimeGPT的文章，TimeGPT是时间序列预测的第一个基础模型之一，具有零样本推理、异常检测和共形预测能力。虽然TimeGPT是一个专有模型，只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月，已经有了一个用于时间序列预测的开源......
代码随想录算法训练营第十七天| 110.平衡二叉树 257. 二叉树的所有路径 404.左叶
110.平衡二叉树题目链接：110.平衡二叉树-力扣（LeetCode）思路：判断平衡二叉树，就是判断两个子树的高度差，继而问题转化为了如何求子树的高度——后序遍历（主要卡在了这里)。递归函数返回的是树的高度，同时用-1来表示退出递归（一开始想着用bool型作为返回值，发现函数不好设计）。同时要关......
开源.NetCore通用工具库Xmtool使用连载 - OSS文件上传篇
【Github源码】《上一篇》介绍了Xmtool工具库中的图像处理类库，今天我们继续为大家介绍其中的OSS文件上传类库。将本地文件上传到服务器是软件系统经常会遇到的需求，例如：设置用户头像，上传Excel报表等等；涉及到网络访问性能、存储空间等因素的考虑，通常我们会选择使用第三方的对象......
书生开源大模型训练营-第2讲笔记
1大模型及InternLM模型简介1.1什么是大模型？大模型=大语料+大算力+大模型参数大模型的优势在于其能够捕捉和理解数据中更为复杂、抽象的特征和关系。书读三遍，其义自见大模型的应用和发展也需要在性能、成本和道德等多个方面进行权衡和考量。1.2InternLM模型全链条开源I......
【C#】【WPF】WPF开源控件库HandyControl应用
1、首先使用nuget包管理器下载handycontrol 2、app.xaml里面引用，这样可以使用里面的样式<Applicationx:Class="HandyControlTest.App"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microso......
借助 .NET 开源库 Sdcb.DashScope 调用阿里云灵积通义千问 API
在昨天的博文中，我们通过SemanticKernel调用了自己部署的通义千问开源大模型，但是自己部署通义千问对服务器的配置要求很高，即使使用抢占式按量实例，每次使用时启动服务器，使用完关闭服务器，也比较麻烦，而且越高级的大模型对服务器的配置越高。所以昨天的博文中使用了很低级的Qwen-7B......
初步体验通过 Semantic Kernel 与自己部署的通义千问开源大模型进行对话
春节之前被SemanticKernel所吸引，开始了解它，学习它。在写这篇博文之前读了一些英文博文，顺便在这里分享一下：IntrotoSemanticKernel–PartOneIntrotoSemanticKernel–PartTwoBuildacustomCopilotexperiencewithyourprivatedatausingandKernelMemory......
代码随想录算法训练营第十六天| 104.二叉树的最大深度 559.n叉树的最大深度 111.二
104.二叉树的最大深度题目链接：104.二叉树的最大深度-力扣（LeetCode）n叉树也一样思路：我的普通递归方法classSolution{public:intdepth(TreeNode*node,intd){intl=0,r=0;if(node->left==NULL&&node->right==NULL)returnd;if(node-......

书生开源大模型训练营-第3讲-笔记

相关文章

赞助商

阅读排行