需要学习提示词工程的同学请看面向开发者的提示词工程
需要学习ChatGPT的同学请查看搭建基于 ChatGPT 的问答系统
需要学习LangChian开发的同学请查看基于LangChain开发应用程序
正文
在大数据时代,数据价值逐渐凸显,打造定制化、个性化服务,个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序,大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框架,LangChain 提供了众多结合大模型开发的工具与功能,支持大模型访问个人数据的能力自然必不可少。
在上一部分中,我们讲解了如何基于 LangChain 来实现基本应用程序的开发。通过使用 LangChain 提供的框架与功能,我们可以较为便捷地实现存储、模型链、评估、代理等多样化功能,对接用户的实际需求。在这一部分,我们基于上一部分深入拓展 LangChain 提供的个人数据访问能力,指导开发者如何使用 LangChain 开发能够访问用户个人数据、提供个性化服务的大模型应用。通过学习本部分,您能够进一步掌握 LangChain 框架与大模型开发的进阶能力,为针对生成需要的实际开发奠定基础。
本部分的主要内容包括:加载并切割文档;向量数据库与词向量;检索与问答;聊天等。
目录:
- 简介 Introduction @Joye
- 加载文档 Document Loading @Joye
- 文档切割 Document Splitting @苟晓攀
- 向量数据库与词向量 Vectorstores and Embeddings @Puppet、仲泰
- 检索 Retrieval @Puppet
- 问答 Question Answering @邹雨衡
- 聊天 Chat @高立业
- 总结 Summary @高立业
第一章 简介
欢迎来到《第四部分:使用 LangChain 访问个人数据》!
本课程基于 LangChain 创始人哈里森·蔡斯 (Harrison Chase)与 Deeplearning.ai 合作开发的 《LangChain Chat With your Data》课程,将介绍如何利用 LangChain 框架,使语言模型访问并应用用户自有数据的强大能力。
一、背景
大语言模型(Large Language Model, LLM), 比如ChatGPT, 可以回答许多不同的问题。但是大语言模型的知识来源于其训练数据集,并没有用户的信息(比如用户的个人数据,公司的自有数据),也没有最新发生时事的信息(在大模型数据训练后发表的文章或者新闻)。因此大模型能给出的答案比较受限。
如果能够让大模型在训练数据集的基础上,利用我们自有数据中的信息来回答我们的问题,那便能够得到更有用的答案。
二、 课程基本内容
LangChain 是用于构建大模型应用程序的开源框架,有 Python 和 JavaScript 两个不同版本的包。它由模块化的组件构成,可单独使用也可链式组合实现端到端应用。
LangChain的组件包括:
- 提示(Prompts): 使模型执行操作的方式。
- 模型(Models):大语言模型、对话模型,文本表示模型。目前包含多个模型的集成。
- 索引(Indexes): 获取数据的方式,可以与模型结合使用。
- 链(Chains): 端到端功能实现。
- 代理(Agents): 使用模型作为推理引擎
本课程将介绍使用 LangChain 的典型场景——基于自有数据的对话系统。我们首先学习如何使用 LangChain 的文档加载器 (Document Loader)从不同数据源加载文档。然后,我们学习如何将这些文档切割为具有语意的段落。这步看起来简单,不同的处理可能会影响颇大。接下来,我们讲解语义搜索(Semantic search)与信息检索的方法,获取用户问题相关的参考文档。该方法很简单,但是在某些情况下可能无法使用。我们将分析这些情况并给出解决方案。最后,我们介绍如何使用检索得到的文档,来让大语言模型(LLM)来回答关于文档的问题。
整个流程涵盖数据导入、信息检索与问答生成等关键环节。读者既可以学习各个组件的用法,也可以整体实践构建对话系统的思路。如果你想要先了解关于 LangChain 的基础知识,可以学习《LangChain for LLM Application Development》部分的内容。
本单元将帮助你掌握利用自有数据的语言模型应用开发技能。让我们开始探索个性化对话系统的魅力吧!
标签:简介,模型,LangChain,第一章,开发,文档,使用,数据 From: https://blog.csdn.net/weixin_42553583/article/details/140865590