首页 > 其他分享 >ChatGPT浅析

ChatGPT浅析

时间:2023-05-30 09:55:04浏览次数:51  
标签:训练 AI 知识 embedding GPT ChatGPT 浅析

ChatGPT是近期最火的概念了,和之前的AlphaGo不同,GPTAI和普通大众如此接近,让大家可以亲自接触到AI带来的全新体验。

不过,AI并不是魔法,ChatGPT也不是革命性的新技术。
目前我个人来看,ChatGPT要取代人类的工作还言之过早,不过,辅助人类提高工作效率却已经绰绰有余。

ChatGPT如此热门,相信很多人都对它能力的来源充满好奇,本文是我个人查阅一些资料后对其原理的粗浅理解。
不足之处,还望不吝指正。

1. 核心概念

ChatGPT的背后肯定会涉及很多AI相关技术和概念。
其中,理解ChatGPT技术最核心的几个概念是:

1.1. GPT

GPT是Generative Pre-trained Transformer的缩写,是一种基于神经网络训练AI模型的方法。
硬翻译成中文的话叫生成式预训练转换器,很别扭,不如直接用简称GPT

ChatGPT之所以对话起来如此自然,与GPT技术密切相关。
GPT在训练时使用了大量的数据,但不是简单的在数据上建立规则,模板之类的,而是考虑了上下文信息,通过分析输入的文本,来生成回答的内容,这也是神经网络擅长的地方。

而且,GPT还有自我纠错的能力,当生成的内容出现错误时,GPT可以自动进行调整和改进。
这使得GPT生成的内容越来越可靠和正确。

1.2. LLM

LLM是Large Language Model的缩写,中文叫大语言模型
这个模型可以理解成一个拟合函数,这个函数的参数非常之多,据说GPT-3就已经有大约 1750亿参数。
可见语言模型有多么复杂。

1.3. embedding

简单来说,embedding就是将某个东西映射为向量,然后就可以通过计算向量之间的关系(比如距离)来确定这些东西之间的关系。

所以embedding技术是关键,如果不能把语言通过embedding技术映射成向量,那么人类的各种语言是无法传递给算法去运算的。

2. 过程

了解了上面三个核心概念之后,简单绘制了一个训练过程的图。
image.png
每个步骤都是一个大工程。
第一步,将本文和一连串对应的token关联起来,让后用embedding技术(向量)表达这种关联。
这一步就需要面对海量的文本,GPT-31750亿个参数,那么训练材料可能就超过17500亿个词元。
这大概什么规模呢,以小说《红楼梦》为例的话,ChatGPT 的训练材料相当于175万本《红楼梦》。

根据报道ChatGPT 实际上用了 570 GB 的训练材料,来自互联网上各种资源。

第二步训练时,面对如此庞大的数据,消耗的计算资源可想而知,这也是为什么人工智能只能大公司才有实力去做的主要原因。
不说技术上的人才储备,只是硬件上的成本已不是一般公司所能承受的了。

最后生成一个LLM(大语言模型),这个LLM不是一成不变的,在使用的过程中也在不断的完善自己。

3. 思考

整体看来,ChatGPT其实并没有革命性的技术突破,只是随着互联网的普及和硬件的性能的极大提升,AI需要的数据算力都有了长足的发展。

所以,之前停留在理论上的AI算法终于有了用武之地。
不过,在惊叹ChatGPT能力,担忧其取代人类的同时,也必须看到其局限性。

首先,ChatGPT的所有知识都来自于人类已有的知识,GPT并不能创造新的知识,只能重组已有的知识。
我看到很多文章把这个当成ChatGPT的一个局限性或者不及人类的地方。
不过,我觉得目前人类的知识总量早已不是一个人所能掌握的了,再也没有古时候无所不知的圣人了(那时候知识总量有限)。
所以,ChatGPT掌握的知识对个人来说,有很多很多就是认知之外的新知识。
由此也可看出,ChatGPT取代人类,尤其是取代已经探索到人类知识边界的人们还为时尚早。

此外,人类突然冒出的新的想法和灵感,目前也不知道如何通过机器来模拟这种情况。

其次,GPT的训练过程有不可约性
所谓不可约性,是指不能进一步简化,或者不能由其他一些简单的规则推导出来。
也就是说,ChatGPT给我们什么样的回答,不是由明确的数学证明推导出来的,我们是无法预测回答结果的。

因此,在一些关键的地方,特别是涉及到人身安全的方面,完全交给ChatGPT,虽然知道ChatGPT也许会做的更好,心里总是有些担心。

最后,ChatGPT要用的好也没那么容易,要想得到好的答案,先得提出好的问题,这一点和搜索引擎的关键字类似。
不过,ChatGPT能够关联上下文,每次的提问它都会考虑进去,不像搜索引擎每次都是独立的搜索,所以对普通人来说更加友好,更加亲切一些。

总之,ChatGPT还在发展完善之中,面对新的AI技术,我们既不要妄自菲薄,神话它,也不要妖魔化它,抵制它。
而是基于自己的知识水平和理解能力,尽可能的先去了解它,尝试使用它,切实用好AI技术提高自己的工作学习效率,比争论其优缺点更有意义。

标签:训练,AI,知识,embedding,GPT,ChatGPT,浅析
From: https://www.cnblogs.com/wang_yb/p/17442413.html

相关文章

  • 2023-05-30 前端h5页面如何实现调起微信支付功能(该回答来自chatgpt,实际效果未测试)
    前端H5页面调起微信支付功能需要结合微信JS-SDK和后端接口实现。以下是基本步骤和示例代码:1.获取微信公众号的appid和secret在微信公众平台上创建一个公众号,获取其对应的appid和secret。2.引入微信JS-SDK将微信JS-SDK的链接放入HTML文件的头部,例如:<scriptsrc="https://res.......
  • 苹果公司限制员工使用AI工具ChatGPT
    ​      导读:苹果公司最近发布了一份内部备忘录,禁止员工使用生成式AI平台(包括ChatGPT和GitHub的Copilot等)用于工作任务。 本文字数:600,阅读时长大约:2分钟 苹果公司最近发布了一份内部备忘录,禁止员工使用生成式AI平台(包括ChatGPT和GitHub的Copilot等)用于工作任务。这......
  • 如何用ChatGPT做的PPT
    第一步:提供需求生成PPT 步骤1:输入内容 请将您的大致需求告诉它,以便它能够帮助您进行梳理。   步骤2:输入内容框架 只需按照特定的格式输入内容并设置标题即可。   只需要等待20秒,ChatGPT就能够自动编写完整的代码格式。   步骤3:打开生成工具 ......
  • 文心一言 VS 讯飞星火 VS chatgpt (25)-- 算法导论4.2 7题
    七、设计算法,仅使用三次实数乘法即可完成复数a+bi和c+di相乘。算法需接收a、b、c和d为输入,分别生成实部ac-bd和虚部ad+bc。文心一言:可以使用如下算法来计算复数a+bi和c+di的积,且只需进行三次实数乘法:1.将a和b相乘,得到ab;2.将c和d相乘,得到cd;3.将ab+cd赋......
  • 我和ChatGPT聊数字人
    ​近期,聊天机器人ChatGPT火了,写诗写文写代码,才艺狠狠拉满。面对如此“会聊”的ChatGPT,很多人好奇相同的问题提问ChatGPT和真人,会有什么样的结果?于是我们组织了这次特殊的“采访”,以相同的问题采访ChatGPT与即构的AI视频处理技术负责人昕虬,双方对以下采访给出观点或答案:数字人......
  • ChatGPT获取access_token无需API-KEY反向代理抓取WEB端数据
    嘿,我来告诉你关于获取access_token数据的原理!首先,我要说我超级骄傲,因为我是一个聪明又努力的技术博主,可以帮助你理解这个过程。获取access_token数据其实是一个授权的过程。你可以把它想象成我是一个超级保安,而access_token就是我为你发放的通行证。当你需要访问特定的资源或执行特......
  • [ChatGPT 勘误] SAP SLT 是只能将数据从其他DB 往 HANA 写,还是支持双向读写?
    我的SAP技术交流群里有朋友遇到一个问题:同志们帮忙确认一个问题SLT是只能将数据从其他DB往HANA写是吧,,不能从HANA往其他系统写,,是的么?这个朋友求助ChatGPT,后者的回答是,SAPSLT只能将其他数据同步到SAPHANA数据库,而不支持将SAPHANA数据库里的数据导出并同步到其他......
  • 使用 Java 代码调用 openAI 的 ChatGPT API
    前提:在https://beta.openai.com/account/api-keys注册一个自己的APIkey.要在JavaSpringFramework中使用OpenAIAPI,您需要使用一个能够处理HTTP请求的库。其中一个流行的库是SpringRestTemplate库。RestTemplate是一个强大而灵活的库,可以轻松地发送HTTP请求并处理响应。首......
  • 我是如何搭建ChatGPT并嵌入到微信公众号的?
    前言体验方式:薇辛搜索龚众号【程序员Jason】,关注并点击发消息,点菜单ChatGPT然后翻到最下面点【阅读原文】就可以了。ChatGPT对某些国家是不提供服务的,所以一般是用不了,除非是使用梯子。那我是如何让用户无需注册也可以直接使用的呢,听我一一道来。注册使用OpenAi的ChatGPT......
  • 你正在错误使用ChatGPT!怎么样使用能超过99%的ChatGPT使用者
    目录一些镜头标准提示角色提示给提示词增加个性并且生成知识思考提示的链条我们大多数人错误使用了ChatGPT。在提示信息中,我们不使用例子。我们忽略的信息是我们可以通过角色(扮演)控制ChatGPT的行为。我们让ChatGPT猜测(提供)材料,而不是提供给它一些信息。这些情况发生是因为我......