首页 > 其他分享 >openai模型个性化训练Embedding和fine-tuning区别

openai模型个性化训练Embedding和fine-tuning区别

时间:2023-05-10 13:13:08浏览次数:52  
标签:嵌入 tuning 微调 搜索 OpenAI Embedding GPT openai

现在基于自然语言和文档进行对话的背后都是使用的基于嵌入的向量搜索。OpenAI在这方面做的很好,它的Cookbook(github.com/openai/openai-cookbook)上有很多案例,最近他们对文档做了一些更新。

GPT擅长回答问题,但是只能回答它以前被训练过的问题,如果是没有训练过的数据,比如一些私有数据或者最新的数据该怎么办呢?

这种情况下通常有两种办法,一种是微调(fine-tuning),一种是嵌入(embedding)。

微调就是在大模型的数据基础上做二次训练,事先准备好一批prompt-complition(类似于问答Q&A)的数据,生成新的模型,这个模型将会包含微调后的数据。

而嵌入则是每次向ChatGPT发送消息(prompt)的时候,把你自己数据结果带上。

王建硕老师对于微调和嵌入有过精妙的比喻:
ChatGPT就像一个已经训练好的家政阿姨,她懂中文,会做家务,但是对你家里的情况不了解。

微调就相当于阿姨第一次到你家干活的时候,你要花一小时时间告诉她家里的情况,比如物件的摆放、哪些地方不能动,哪些地方要重点照顾。

嵌入就相当于你省去了对阿姨进行二次培训的,而是在家里贴满纸条,这样阿姨一看到纸条就知道该怎么做了。

OpenAI的Cookbook也有类似的比喻

微调就像你通过学习准备考试,是一种长期记忆,但过了一周后考试来临,模型可能会忘记袭击,或者记错它从来没有读过的事实。

嵌入就像记笔记,是一种短期记忆,当考试的时候,你把笔记带上,随时翻看笔记,对于笔记上有的内容可以得到准确的答案。

另外嵌入的搜索提问方式相对于微调有一个缺点就是它每次附带的文本数量是有限制的,因为除了原始的问题,它还需要带上搜索出来的问题,GPT-3.5是4K(大约5页),GPT-4最大是32K(大约40页)。

就好比你有成书架的教科书可以借鉴,但每次却只能翻看其中几页笔记。

如果你想构建一个对大量文本问答的系统,OpenAI建议“搜索-问”(Search-Ask)的方法。

也就是先在本地文档库中Search,拿到本地的数据结果,再去Ask,把搜索结果和问题一起交给GPT,这样GPT可以根据你提供的内容以及它模型中的数据,一起将结果返还给你。

至于如何搜索,并非一定要基于向量的搜索,可以有多重搜索方式:
- 基于关键字搜索
- 基于图形的搜索
- 基于向量的搜索

至于在技术上如何实现,OpenAI的Cookbook上也有详细的介绍。

更多细节建议参考:
github.com/openai/openai-cookbook/blob/main/examples/Question_answering_using_embeddings.ipynb

标签:嵌入,tuning,微调,搜索,OpenAI,Embedding,GPT,openai
From: https://www.cnblogs.com/taoshihan/p/17387674.html

相关文章

  • Personalized Top-N Sequential Recommendation via Convolutional Sequence Embeddin
    目录概符号说明Caser代码TangJ.andWangK.Personalizedtop-nsequentialrecommendationviaconvolutionalsequenceembedding.WSDM,2018.概序列推荐的经典之作,将卷积用在序列推荐之上.符号说明\(\mathcal{U}=\{u_1,u_2,\cdots,u_{|\mathcal{U}|}\}\),us......
  • OpenAI CLIP 关键点 - 连接图像和文字
    标签:#CLIP#Image2Text#Text2Image#OpenAI创建时间:2023-04-2100:17:52基本原理CLIP是一个图像分类模型。准备训练数据:准备大量的文本描述和图片的训练对,然后把进行对比训练。文本描述和图片的训练对的数据获取:从互联网上获得400Million的图像文本数据对。这个规模......
  • NLP 中 Embedding(词嵌入) 和 Tokenizer(分词器) 分别是什么?
    NLP中Embedding(词嵌入)和Tokenizer(分词器)分别是什么?Embedding(词嵌入)和Tokenizer(分词器)是在自然语言处理中常用的两种技术,用于将文本转换为计算机可以处理的数字表示。Tokenizer(分词器)是将文本转换为单词或子词序列的过程。在自然语言处理中,文本通常是由一系列单词或子词组......
  • 【OpenAI】私有框架代码生成实践
    作者:京东零售牛晓光根据现有调研和实践,由OpenAI提供的ChatGPT/GPT-4模型和CodeX模型能够很好的理解和生成业界大多数编程语言的逻辑和代码,其中尤其擅长Python、JavaScript、TypeScript、Ruby、Go、C#和C++等语言。然而在实际应用中,我们经常会在编码时使用到一些私有框架、包......
  • OpenAI API keys 的申请和测试小结
    申请准备工作,申请OpenAIAPIkeys首先需要准备三件套:1.VPN(登录Google和OpenAI)2.GoogleGmail邮箱账号3.国外手机(接收验证码,可用接码平台代替) 接下来,开启申请OpenAIAPIkeys之旅。 首先,开启VPN全局代理模式,同时将代理服务器的地址改为香港以外的国家,这样避免......
  • 迁移Prompt–解决Prompt Tuning三大问题!
    文|Harris刘鹏飞博士将近代NLP的研究划归为四种范式[1]并把预训练语言模型加持下的PromptLearning看作是近代自然语言处理技术发展的“第四范式”。当我们使用新范式的方法的时候,能够意识到它带来的优异性可能是以某种“人力”牺牲为代价的。而如何让这种人力代价降到最低,往往......
  • 什么是Auto GPT-4? OpenAI 最新语言模型概览
    动动发财的小手,点个赞吧!人工智能正在快速发展,近年来最令人兴奋的发展之一是创建可以生成类似人类文本的语言模型。领先的人工智能研究机构OpenAI最近发布了其最新的语言模型AutoGPT-4。在什么是AutoGPT-4?OpenAI最新语言模型概述一文,我们将概述什么是AutoGPT-4、Auto......
  • 推翻OpenAI结论,DeepMind重新定义预训练的参数和规模关系!
    文|王思若前言从20年开始,“最大语言模型”的桂冠被各大研究机构和科技公司竞相追逐,堆砌参数,猛上算力,开启了“大炼丹”时代,模型参数量仿佛越大越好,甚至GPT-4模型参数量将超过100万亿的传闻甚嚣尘上。当把视角落在今年下半年,大模型的“军备竞赛”似乎戛然而止,22年4月,Google发布了5400......
  • 《深入浅出Embedding》随笔
    ChatGPT的核心运行机制或许是Transformer,ChatGPT的核心数据机制或许就是嵌入(Embedding)了。什么是Embedding呢?了解Embedding可以为我们的软件研发工作带来哪些帮助呢?鉴于此,老码农阅读了《深入浅出Embedding》(吴茂贵王红星著,机械工业出版社,2021年)一书,本文是阅读该书的读书笔记和随......
  • openAI cookbook - debug
     当用GPT失败的时候应该怎么办?更好的promptfinetune模型不行,letitbeWhenGPT-3failsonatask,whatshouldyoudo?Searchforabetterpromptthatelicitsmorereliableanswers?Investinthousandsofexamplestofine-tuneacustommodel?Assumethemode......