首页 > 其他分享 >每周一记13

每周一记13

时间:2023-05-30 20:13:03浏览次数:35  
标签:13 服务 LLM 每周 一记 Embedding PDF 文本 向量

什么是 Embedding?你可能在 Twitter 上已经看到这个词被无数次提及。

简单来说,Embedding 就是一个多维向量数组,由系列数字组成。它们能够代表任何东西,比如文本、音乐、视频等等。我们这里将主要关注文本。

图片

创建 Embedding 的过程非常简单。这主要依靠 Embedding 模型(例如:OpenAI 的 Ada)。

你将你的文本发送给模型,模型会为你生成该数据的向量结果,这可以被存储并在之后使用。

Embedding 之所以重要,是因为它们赋予我们进行语义搜索的能力,也就是通过相似性进行搜索,比如通过文本的含义。

因此,在这个例子中,我们可以在一个向量空间上表示“男人”、“国王”、“女人”和“王后”,你可以非常容易地看到它们在向量空间之间的关系。

图片

来看一个更直观的例子:

假设你是一个有一大箱玩具的小孩。现在,你想找出一些类似的玩具,比如一个玩具汽车和一个玩具巴士。它们都是交通工具,因此它们是相似的。

这就是所谓的 “语义相似性”—— 表示某种程度上事物具有相似的含义或想法。

现在假设你有两个相关联但并不完全相同的玩具,比如一个玩具汽车和一个玩具公路。它们并不完全相同,但因为汽车通常在公路上行驶,所以它们是相互关联的。 


那么,Embedding 为何如此重要呢?主要是由于大语言模型(LLM)存在上下文限制。在一个理想的世界中,我们可以在一个 LLM 提示中放入无限数量的词语。但是,正如许多人所知,目前我们还做不到。以 OpenAI 的 GPT 为例,它限制在大约在 4096 - 32k 个 token。

因此,由于其 “内存”(即我们可以填充到其 token 的词语的数量),我们与 LLM 的交互方式受到了严重限制。这就是为什么你不能将一个 PDF 文件复制粘贴到 ChatGPT 中并要求它进行总结的原因。(当然,现在由于有了 gpt4-32k,你可能可以做到这一点了)

那么,怎么把 Embedding 和 LLM 关联起来解决 token 长度限制的问题呢?实际上,我们可以利用 Embedding,只将相关的文本注入到 LLM 的上下文窗口中。

让我们来看一个具体的例子:

假设你有一个庞大的 PDF 文件,可能是一份国会听证会的记录(呵呵)。你有点懒,不想阅读整个文件,而且由于其页数众多,你无法复制粘贴整个内容。这就是一个 Embedding 的典型使用场景。

所以你将 PDF 的文本内容先分成块,然后借助 Embedding 将文本块变成向量数组,并将其存储在数据库中。

在存储分块的向量数组时,通常还需要把向量数组和文本块之间的关系一起存储,这样后面我们按照向量检索出相似的向量数组后,能找出对应的文本块,一个参考的数据结构类似于这样:



{
[1,2,3,34]: '文本块1',
[2,3,4,56]: '文本块2',
[4,5,8,23]: '文本块3',
……


}

现在你提出一个问题:“他们对 xyz 说了什么”。我们先把问题“他们对 xyz 说了什么?”借助 Embedding 变成向量数组,比如[1,2,3]。

现在我们有两个向量:你的问题 [1,2,3] 和 PDF [1,2,3,34],然后,我们利用相似性搜索,将问题向量与我们庞大的 PDF 向量进行比较。OpenAI 的 Embedding 推荐使用的是余弦相似度。

图片

好了,现在我们有最相关的三个 Embedding 及其文本,我们现在可以利用这三个输出,并配合一些提示工程将其输入到 LLM 中。例如:



已知我们有上下文:文本块 1,文本块 2,文本块 3。
现在有用户的问题:他们对 xyz 说了什么?
请根据给定的上下文,如实回答用户的问题。


如果你不能回答,那么如实告诉用户“我无法回答这个问题”。


就这样,LLM 会从你的 PDF 中获取相关的文本部分,然后尝试如实回答你的问题。

这就简单的阐述了 Embedding 和 LLM 如何为任何形式的数据提供相当强大的类似聊天的能力。这也是所有那些“与你的网站/PDF/等等进行对话” 的功能如何工作的!

请注意 Embedding 并非 FINE-TUNING。

如喜欢本文,请点击右上角,把文章分享到朋友圈
如有想了解学习的技术点,请留言给若飞安排分享

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享

·END·

相关阅读:

一张图看懂微服务架构路线
基于Spring Cloud的微服务架构分析
微服务等于Spring Cloud?了解微服务架构和框架
如何构建基于 DDD 领域驱动的微服务?
小团队真的适合引入SpringCloud微服务吗?

DDD兴起的原因以及与微服务的关系

微服务之间的最佳调用方式

微服务架构设计总结实践

基于 Kubernetes 的微服务项目设计与实现

微服务架构-设计总结

为什么微服务一定要有网关?

主流微服务全链路监控系统之战

微服务架构实施原理详解
微服务的简介和技术栈
微服务场景下的数据一致性解决方案
设计一个容错的微服务架构

标签:13,服务,LLM,每周,一记,Embedding,PDF,文本,向量
From: https://www.cnblogs.com/liuchao437/p/17444264.html

相关文章

  • CF1398E Two Types of Spells 题解 set
    题目链接:https://codeforces.com/problemset/problem/1398/E题目大意你有一个集合,初始为空。有两种类型的元素,一种是普通元素,一种是强化元素,两种元素都有一个数值。有\(n\)次操作,每次操作会往集合中加入一个元素或者删除一个元素。每次操作后,你都需要确定集合中元素的一个......
  • Redis系列13:分布式锁实现
    Redis系列1:深刻理解高性能Redis的本质Redis系列2:数据持久化提高可用性Redis系列3:高可用之主从架构Redis系列4:高可用之Sentinel(哨兵模式)Redis系列5:深入分析Cluster集群模式追求性能极致:Redis6.0的多线程模型追求性能极致:客户端缓存带来的革命Redis系列8:Bitmap实现亿万级......
  • 139. 单词拆分
    给你一个字符串s和一个字符串列表wordDict作为字典。请你判断是否可以利用字典中出现的单词拼接出s。注意:不要求字典中出现的单词全部都使用,并且字典中的单词可以重复使用。输入:s="leetcode",wordDict=["leet","code"]输出:true解释:返回true因为"leetcod......
  • 【安全学习之路】Day13
    ......
  • 刷题笔记52 动态规划 part13
    @目录动态规划300.最长递增子序列674.最长连续递增序列718.最长重复子数组动态规划●300.最长递增子序列●674.最长连续递增序列●718.最长重复子数组300.最长递增子序列300.最长递增子序列法1:动态规划intlengthOfLIS(vector<int>&nums){//未考虑......
  • poj 1324(BFS+状态压缩)
    解题思路:这道题一开始的想法就是状态压缩,即考虑如何判重,由于蛇并非是直线的,所以想到了以每一个点的上下左右共四个值来表示相对位置。最开始想如何用四进制来表示它,无语。。。。。还是题目做少了,直接用两位来表示一个点即可(两位的二进制数可以表示0-3)。剩下的关键就是判断蛇头会不......
  • ASEMI双向可控硅BT137性能特点, BT137应用及购买指南
    编辑-Z本文将详细介绍可控硅BT137的性能特点、应用领域以及购买时需要注意的事项,帮助您更好地了解和选择BT137可控硅。 一、BT137可控硅简介可控硅(SiliconControlledRectifier,简称SCR)是一种四层三端半导体器件,具有高功率、高压、高温等优点,广泛应用于各种电子设备中。BT137是一......
  • ASEMI双向可控硅BT137性能特点, BT137应用及购买指南
    编辑-Z本文将详细介绍可控硅BT137的性能特点、应用领域以及购买时需要注意的事项,帮助您更好地了解和选择BT137可控硅。 一、BT137可控硅简介可控硅(SiliconControlledRectifier,简称SCR)是一种四层三端半导体器件,具有高功率、高压、高温等优点,广泛应用于各种电子设备中。BT137......
  • Flask013_ for 循环语句
    调用[email protected]('/for')2deffor_statement():3books=[{4'title':'三国演义',5'author':'罗贯中',6'price':1007},8{9'ti......
  • Flask013_ if 判断语句
    调用[email protected]('/if')2defif_statement():3age=184returnrender_template('if.html',age=age)if.html1<!DOCTYPEhtml>2<htmllang="en">3<head>4<metacharset="UTF-8......