首页 > 其他分享 >初识 Embedding,为何大家都基于它搭建私人智能客服?

初识 Embedding,为何大家都基于它搭建私人智能客服?

时间:2024-09-02 11:21:48浏览次数:5  
标签:AI 客服 模型 初识 Embedding evaluate 数据 向量

随着 AI 技术的发展,大家在日常使用过程中经常会碰到一些目前 GPT4 也无法解决的问题:

  • 无法获取个人私有数据信息,进行智能问答
  • 无法获取最新信息,LLM 模型训练都是都是有截止日期的
  • 无法定制化私有的专属模型,从而在某个领域内取得更好效果

基于以上问题 OpenAI 官方提供了两种不同私有化模型定制方式:Fine-Tuning(微调)、Embedding(嵌入)。

一、Fine-Tuning 与 Embedding 区别

两种方式信息概括如下:

  • Fine-Tuning(微调):在一个已经预训练好的模型的基础上,使用用户提供的数据进行进一步的训练,从而使模型更适合用户的特定应用场景。微调可以提高模型的质量、准确性和可靠性,以及降低请求的延迟和代价。微调需要用户准备和上传训练数据,以及选择合适的模型和参数。
  • Embedding(嵌入):指将文本或其他内容转换为数值向量的形式,从而可以计算内容之间的相似度或相关性。OpenAI 的 Embedding 模型可以将文本解析为 1536 个维度,每个维度代表一个概念或特征。用户可以通过 Embedding 模型来存储、检索或比较文本或其他内容。Embedding 不需要用户提供训练数据,也不需要选择模型和参数。

Fine-Tuning 微调训练的成本较高,且自身需要一定的模型训练经验和一定规模的数据集,否则微调出来的模型效果并不会很理想。所以更推崇使用 Embedding 方式对数据进行处理从而达到预期效果,比如目前市面上智能客服完全可以通过 Embedding 实现落地。

二、Embedding 详细分析

接下来我们就来重点聊聊 Embedding ,它的大致流程是:

  1. 将已有数据集维护成对应的向量数据库
  2. 当用户通过 Prompt 进行提问时,从向量数据库提取相似或相近的信息
  3. 将信息连同 Prompt 一起发送给 GPT 模型来生成结果

这样做有一个好处就是我们只需要将相关的数据发送给 ChatGPT 即可,相对比较节约 Token。

Embedding 将数据转成成连续向量空间的过程,我们并不需要去深入了解。所以我们从 Embedding 如何识别相似或关联性数据讲起。

1. 如何从向量数据库提取相关数据?

从上面的概述我们可以了解到一个重点是:Embedding 模型需要将数据解析为 1536 个维度,每个维度代表一个概念或特征

将一段文字转换成这么多个维度的数据,从向量数据库提取的过程中就是根据这些维度进行计算。

人类是如何辨别一个人,想象自己平时是如何认出谁是谁呢?我们都是通过外表容貌来认人的(如眼睛大小、鼻子大小、脸型、发型等等),对我们熟悉的人,我们的脑海中会记住他的五官、身材等关键信息。

映射到向量数据也是一样的道理,将数据的 1536 个维度认为是它的“五官”,当我们需要从向量数据库中提取数据时只需要找到“五官”相似的数据即可。

图片

以如上二维坐标进行举例,相似或有关联性的向量数据就会分布在坐标系中比较临近的位置(奥运会、亚运会、残奥会),而内容基本不相干的向量数据(北京地铁)在坐标系中就会离得比较远。

2. 使用 OpenAI 生成向量数据

通过 OpenAI 官网我们也可以看到,价格还是比较便宜的。使用量按每个输入令牌定价,收费为每1000个 tokens 大约0.0004美元。

图片

通过 OpenAI 的 Embedding 方法调用,看看返回数据啥样。
在这里插入图片描述

接口返回了该文本对应的 1536 个维度数据,相当于我们已经掌握了这份文本数据的“五官”信息了。

图片

3. 如何提取相似数据?

在上面的方法上使用余弦值来比较相似度,代码如下:

import openai
from sklearn.metrics.pairwise import cosine_similarity

openai.api_key = "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"

if __name__ == '__main__':
    evaluate_one_text = "奥运会"    
    evaluate_two_text = "亚运会"    
    evaluate_three_text = "北京地铁"   
     
    # 对数据进行 embedding    
    embeddings = openai.Embedding.create(    
        model="text-embedding-ada-002",        
        input=[evaluate_one_text, evaluate_two_text, evaluate_three_text],    
    )    
    
    evaluate_one = embeddings["data"][0]["embedding"]    
    evaluate_two = embeddings["data"][1]["embedding"]    
    evaluate_three = embeddings["data"][2]["embedding"]   
    
    print("奥运会&亚运会的余弦距离:" + format(cosine_similarity([evaluate_one], [evaluate_two])[0][0]))    
    print("奥运会&北京地铁的余弦距离:" + format(cosine_similarity([evaluate_one], [evaluate_three])[0][0]))    
    print("北京地铁&亚运会的余弦距离:" + format(cosine_similarity([evaluate_three], [evaluate_two])[0][0]))

结果如下:

奥运会&亚运会的余弦距离:0.9022809359592784
奥运会&北京地铁的余弦距离:0.7898007980212471
北京地铁&亚运会的余弦距离:0.7767229785942393

计算两个数据的相似度,我们可以使用余弦相似度(cosine similarity)的方法,即计算两个向量之间的夹角的余弦值。余弦相似度的范围是[-1, 1],其中 1 表示完全相同,0表示正向相关性,-1表示完全相反。

通过这样一个简单的案例,我们就可以知道 OpenAI 是如何从向量数据库中提取到相似或相关联的数据。

结尾

本文主要讲解了 Embedding 的一些基本概念,后续会更新如何基于 Embedding 转换私人数据搭建私人客服。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

标签:AI,客服,模型,初识,Embedding,evaluate,数据,向量
From: https://blog.csdn.net/python1234567_/article/details/141815339

相关文章

  • 初识Arduino
    什么是ArduinoArduino是一款便捷灵活、方便上手的开源电子原型平台。它包含硬件部分(即各种型号的Arduino板)、软件部分(即ArduinoIDE),以及其Arduino社区平台。Arduino由一个欧洲开发团队于2005年冬季开发,成员包括MassimoBanzi、DavidCuartielles、TomIgoe、GianlucaMartino......
  • 【开源分享】2024PHP在线客服系统源码 带搭建教程
    PHP在线客服系统主要功能:用户信息用户提交:新用户可以通过表单留言输入相关信息,如用户名、密码、邮箱等,完成后获得唯一的用户ID和密码。客服管理客服信息管理:管理客服人员的基本信息,如姓名、工号、权限等。客服工作状态:实时显示客服人员的在线/离线状态,方便客户选择合适的......
  • AI技术的实际影响:智能客服机器人作为技术革新的一瞥
    Hi~这里是ProXiao文章参考:晓观点 AI到底给我们带来了什么?智能客服机器人就是最好的答案!https://insight.xiaoduoai.com/intelligent-tools/intelligent-customer-service-robot/the-best-answer-that-ai-has-brought-us-is-intelligent-customer-service-robots.html?utm_c......
  • 初识HTML
    HTMLHyperTextMarkupLanguage(超文本标记语言)Hyperadj.既兴奋又紧张的;精力过旺的n.宣传人员网络超过;高;过度markupn.标记;(基于成本价与销售价之间差价的)加成网络涨价;加价;标示超文本:文字、图片、音频、视频、动画等替代了flashW3C标准W3C:WorldWideWebConsortium......
  • 初识C语言指针(5)
    目录1.回调函数2.qsort函数2.1qsort函数的基本参数2.2qsort函数的使用2.3qsort排序结构体类型数据结语1.回调函数什么是回调函数呢?回调函数就是⼀个通过函数指针调⽤的函数。如果你把函数的指针(地址)作为参数传递给另⼀个函数,当这个指针被⽤来调⽤其所指向的......
  • HandyControl 初识 第一次正确引入
    在App.xaml配置HandyControl,一个是皮肤资源,一个是主题资源完整代码:`<Application.Resources><ResourceDictionary><ResourceDictionary.MergedDictionaries><ResourceDictionarySource="pack://application:,,,/HandyControl;compone......
  • 医药行业智能客服机器人的未来发展趋势探析
    Hi~这里是ProXiao文章参考:晓观点 智能客服机器人在医药行业的发展趋势是什么?https://insight.xiaoduoai.com/intelligent-tools/intelligent-customer-service-robot/what-is-the-development-trend-of-intelligent-customer-service-robots-in-the-pharmaceutical-industr......
  • 在线客服系统PHP源码免费开源 (搭建教程+全新UI)
    安装环境宝塔面板  php>8.0 mysql5.7安装搭建1.建站点上传程序2.建数据库 导入数据3.网站目录/public伪静态设置4.修改数据库配置信息5.修改config.js里的配置信息6.启动wokerman命令更详细的搭建教程请下载源码根目录下 安装教程.docx产品亮点:自动回复......
  • 使用xinference部署自定义embedding模型(docker)
    使用xinference部署自定义embedding模型(docker)说明:首次发表日期:2024-08-27官方文档:https://inference.readthedocs.io/zh-cn/latest/index.html使用docker部署xinferenceFROMnvcr.io/nvidia/pytorch:23.10-py3#KeepsPythonfromgenerating.pycfilesinthecontai......
  • 初识嵌入式
    1.什么是嵌入式嵌入式系统是以应用为中心,以现代计算机技术为基础,能够根据用户需求(功能、可靠性、成本、体积、功耗、环境等)灵活裁剪软硬件模块的专用计算机系统。嵌入式即嵌入式系统,IEEE(美国电气和电子工程师协会)对其定义是以应用为中心,以计算机技术为基础,软件硬件可裁剪......