自回归、自编码器、seq2seq
Autoregressive LM
- 特点:自回归语言模型按照特定的顺序一次生成一个token。自回归模型是单向的语言模型,适合用于文本生成。
- 训练方式:给定之前所有的token,预测下一个token是什么。
- 代表模型:GPT。
Autoencoder LM
- 特点:自编码器语言模型通常用于denoising, 因此也叫做denosing autoencoder。该模型经过训练以最小化输入和输出之间的差异,从而学习过程中输入的压缩表示。
- 训练方式:他首先破坏输入的token,通过encoder编码到潜在空间,然后再解码(重构)到原始空间。
- 代表模型:
- 自编码模型往往会构建一个双向上下文的表示,因此天然适用于文本分类等任务。典型自编码模型:BERT。
- Masked Language Model (MLM)和Next Sentence Prediction (NSP)就是最典型的自编码预训练任务。BERT在MLM上的训练,就是通过把输入进行一定的掩盖,再重建恢复原始token序列的过程。
Seq2Seq LM
- 特点:seq2seq预言模型旨在将序列从原先domain(例如,一种语言的句子)转换到另一个domain的序列(例如,另一种语言的句子)。它也是有一个encoder和decoder组成。
- 训练方式:编码器处理输入序列并将其压缩为上下文向量,即表示整个输入序列的单个向量。然后解码器从上下文向量生成输出序列。
- 代表模型:Transformer, LSTM。
- 与Autoregressive LM关系:通常Seq2Seq模型都是自回归的,特别是在解码阶段。因为它们一次生成一个token,并且利用了之前生成的token。但是不是所有的自回归模型都是Seq2seq的,自回归模型可用于 Seq2Seq 框架之外的各种环境。例如,GPT是一种自回归模型,不是 Seq2Seq 模型。它以从左到右的方式一次生成文本一个标记,但它不像 Seq2Seq 模型那样具有单独的编码和解码阶段。
模型的区别和改进
Note that the only difference between autoregressive models and autoencoding models is in the way the model is pretrained. Therefore, the same architecture can be used for both autoregressive and autoencoding models.
- 注意:模型的区别在于它们的预训练任务,相同的模型架构可以同时用作自回归和自编码器模型。
- UniLM,基于BERT,把三种不同的预训练任务结合在一起训练了同一个模型,从而可以使模型既可以做文本分类 (NLU),也可以做文本生成 (NLG)。
- BART,是一个
denosing autoencoder
,使用bidirectional encoder与left-to-right autoregressive decoder构建模型。在预训练时,除了MLM,还用了多种不同corrupting输入文档的任务。BART也能同时用于NLU和NLG。
其他问题
- Autoencoder LM一定有decoder吗?如果是,为什么bert没有?
- 在用于图像压缩或降噪等任务的传统自动编码器中,有一个清晰的编码器和解码器结构:编码器将输入压缩为潜在表示,解码器根据该表示重建输入。
- 但是Bert有点不同,它通常被称为“用于语言建模的掩码的自动编码器”,但是它没有传统意义上的编码器。Bert通过将句子的一些词mask掉,根据非mask的词来预测mask掉的词。这是在一个步骤中完成的,“解码”在将句子压缩成稠密向量的时候同时完成的。
- Autoencoder LM和seq2seq LM都是encoder-decoder架构,它们的区别是什么?
- 这两种模型的主要区别在于它们的目标以及它们处理编码和解码过程的方式。自动编码器语言模型旨在重建其输入(原始文本),而 Seq2Seq 模型旨在将其输入转换为不同的输出(例如,翻译任务,一种语言到另一种语言)。
- Seq2seq模型是否包含自回归和自编码模型?
- Seq2Seq模型有时可以包含自编码和自回归模型。Seq2Seq模型的decoder通常是自回归的,它根据之前的所有token,一次生成一个token的输出序列。
- Seq2Seq的encoder部分可以看作类似自编码器,因为它将输入压缩成密集表示,但是与自编码器LM不同的是,seq2seq的encoder目标不是重建输入,而是为生成的输出序列(通常是不同domain的)提供有用的表示。
- BART, T5模型类别?
- BART 可以被视为denosing autoencoder和Seq2seq模型的组合,而 T5 是一个Seq2seq模型(同时也属于Autoregressive)。
- 三种类别与NLU和NLG任务的关系?
- 自回归模型:通常用于自然语言生成(NLG)任务。但是可以利用模型的最后一层隐藏层用于类似情感分析、文本分类的NLU任务。
- 自编码器模型:通常用于自然语言理解(NLU)任务。
- Seq2Seq:两种任务都可以。一般需要同时进行NLU和NLG。先理解,再生成。例如,问答,机器翻译。
参考:
- Autoencoding和Autoregressive的区别
- chatgpt