标签：训练 AI 知识 embedding GPT ChatGPT 浅析

ChatGPT是近期最火的概念了，和之前的AlphaGo不同，GPT让AI和普通大众如此接近，让大家可以亲自接触到AI带来的全新体验。

不过，AI并不是魔法，ChatGPT也不是革命性的新技术。
目前我个人来看，ChatGPT要取代人类的工作还言之过早，不过，辅助人类提高工作效率却已经绰绰有余。

ChatGPT如此热门，相信很多人都对它能力的来源充满好奇，本文是我个人查阅一些资料后对其原理的粗浅理解。
不足之处，还望不吝指正。

1. 核心概念

ChatGPT的背后肯定会涉及很多AI相关技术和概念。
其中，理解ChatGPT技术最核心的几个概念是：

1.1. GPT

GPT是Generative Pre-trained Transformer的缩写，是一种基于神经网络训练AI模型的方法。
硬翻译成中文的话叫生成式预训练转换器，很别扭，不如直接用简称GPT。

ChatGPT之所以对话起来如此自然，与GPT技术密切相关。
GPT在训练时使用了大量的数据，但不是简单的在数据上建立规则，模板之类的，而是考虑了上下文信息，通过分析输入的文本，来生成回答的内容，这也是神经网络擅长的地方。

而且，GPT还有自我纠错的能力，当生成的内容出现错误时，GPT可以自动进行调整和改进。
这使得GPT生成的内容越来越可靠和正确。

1.2. LLM

LLM是Large Language Model的缩写，中文叫大语言模型。
这个模型可以理解成一个拟合函数，这个函数的参数非常之多，据说GPT-3就已经有大约 1750亿参数。
可见语言模型有多么复杂。

1.3. embedding

简单来说，embedding就是将某个东西映射为向量，然后就可以通过计算向量之间的关系（比如距离）来确定这些东西之间的关系。

所以embedding技术是关键，如果不能把语言通过embedding技术映射成向量，那么人类的各种语言是无法传递给算法去运算的。

2. 过程

了解了上面三个核心概念之后，简单绘制了一个训练过程的图。

每个步骤都是一个大工程。
第一步，将本文和一连串对应的token关联起来，让后用embedding技术（向量）表达这种关联。
这一步就需要面对海量的文本，GPT-3有1750亿个参数，那么训练材料可能就超过17500亿个词元。
这大概什么规模呢，以小说《红楼梦》为例的话，ChatGPT 的训练材料相当于175万本《红楼梦》。

根据报道，ChatGPT 实际上用了 570 GB 的训练材料，来自互联网上各种资源。

第二步训练时，面对如此庞大的数据，消耗的计算资源可想而知，这也是为什么人工智能只能大公司才有实力去做的主要原因。
不说技术上的人才储备，只是硬件上的成本已不是一般公司所能承受的了。

最后生成一个LLM（大语言模型），这个LLM不是一成不变的，在使用的过程中也在不断的完善自己。

3. 思考

整体看来，ChatGPT其实并没有革命性的技术突破，只是随着互联网的普及和硬件的性能的极大提升，AI需要的数据和算力都有了长足的发展。

所以，之前停留在理论上的AI算法终于有了用武之地。
不过，在惊叹ChatGPT能力，担忧其取代人类的同时，也必须看到其局限性。

首先，ChatGPT的所有知识都来自于人类已有的知识，GPT并不能创造新的知识，只能重组已有的知识。
我看到很多文章把这个当成ChatGPT的一个局限性或者不及人类的地方。
不过，我觉得目前人类的知识总量早已不是一个人所能掌握的了，再也没有古时候无所不知的圣人了（那时候知识总量有限）。
所以，ChatGPT掌握的知识对个人来说，有很多很多就是认知之外的新知识。
由此也可看出，ChatGPT取代人类，尤其是取代已经探索到人类知识边界的人们还为时尚早。

此外，人类突然冒出的新的想法和灵感，目前也不知道如何通过机器来模拟这种情况。

其次，GPT的训练过程有不可约性。
所谓不可约性，是指不能进一步简化，或者不能由其他一些简单的规则推导出来。
也就是说，ChatGPT给我们什么样的回答，不是由明确的数学证明推导出来的，我们是无法预测回答结果的。

因此，在一些关键的地方，特别是涉及到人身安全的方面，完全交给ChatGPT，虽然知道ChatGPT也许会做的更好，心里总是有些担心。

最后，ChatGPT要用的好也没那么容易，要想得到好的答案，先得提出好的问题，这一点和搜索引擎的关键字类似。
不过，ChatGPT能够关联上下文，每次的提问它都会考虑进去，不像搜索引擎每次都是独立的搜索，所以对普通人来说更加友好，更加亲切一些。

总之，ChatGPT还在发展完善之中，面对新的AI技术，我们既不要妄自菲薄，神话它，也不要妖魔化它，抵制它。
而是基于自己的知识水平和理解能力，尽可能的先去了解它，尝试使用它，切实用好AI技术提高自己的工作学习效率，比争论其优缺点更有意义。

标签：训练,AI,知识,embedding,GPT,ChatGPT,浅析
From： https://www.cnblogs.com/wang_yb/p/17442413.html

ChatGPT浅析