语言建模(Language Model,LM)
语言建模是提高机器语言智能的主要方法之一。一般来说,LM旨在对词序列的生成概率进行建模,以预测未来失)tokens的概率。
统计语言模型-->神经语言模型-->预训练语言模型-->大模型
统计语言模型(Statistical Language Model,SLM)
基于统计学习方法开发,例如根据最近的上下文预测下一个词。统计语言模型的一个经典例子是n-gram模型。在n-gram模型中,一个词出现的概率只依赖于它前面的n-1个词。
例如,一个三元模型(trigram model)会使用以下的公式来计算序列中某个词的概率:
[ P(w_i | w_{i-2}, w_{i-1}) ]
这里只考虑了前两个词对第三个词出现概率的影响。
例如,一个三元模型(trigram model)会使用以下的公式来计算序列中某个词的概率:
[ P(w_i | w_{i-2}, w_{i-1}) ]
这里只考虑了前两个词对第三个词出现概率的影响。
神经语言模型(Neural Language Model,NLM)
是使用神经网络来预测词序列的概率分布的模型。与传统的统计语言模型(如n-gram模型)使用固定窗口大小的词来预测下一个词的概率不同,神经语言模型可以考虑更长的上下文或整个句子的信息。
循环神经网络(RNN):包括LSTM和GRU等变体,能够处理变长的序列数据。
分布式表示:在神经语言模型中,每个单词通常被编码为一个实数值向量,这些向量也被称为词嵌入(wordembeddings)。词嵌入可以捕捉词与词之间的语义和语法关。
预训练语言模型(Pre-trained Language Model,PLM)
这些模型通常在大规模无标签语料库上进行预训练任务,学习词汇、短语、句子甚至跨句子的语言规律和知识。通过这种预训练,模型能够捕获广泛的通用语义特征,然后可以在特定任务上进行微调(fine-tuning),以适应特定的应用场景。
Transformer
2017年在论文《Attention Is All You Need》提出的Transformer,Transformer模型通过其自注意力机制和高度的并行化能力,极大地提高了序列处理任务的效率和效果,它能够在处理序列数据时捕捉全局依赖关系,同时具有并行计算的能力,是近年来自然语言处理领域的重要进展之一。
- 自注意力机制
- 并行化能力
大语言模型(Large Language Models,LLM)
大语言模型(大模型)是指那些具有大量参数、在大规模数据集上训练的语言模型。这些模型能够理解和生成自然语言,通常是通过深度学习和自注意力机制(如Transformer架构)实现的。它们在自然语言处理(NLP)的多个领域都有广泛的应用,包括但不限于文本生成、翻译、摘要、问答和对话系统。
大语言模型通常有数十亿甚至数万亿个参数。例如,GPT-3拥有1750亿个参数。