首页 > 其他分享 >NLP中的Autoencoder、Autoregressive、seq2seq模型区分

NLP中的Autoencoder、Autoregressive、seq2seq模型区分

时间:2023-05-18 12:13:33浏览次数:50  
标签:NLP 编码器 Autoregressive 模型 LM seq2seq Seq2Seq token 输入

自回归、自编码器、seq2seq

Autoregressive LM

  • 特点:自回归语言模型按照特定的顺序一次生成一个token。自回归模型是单向的语言模型,适合用于文本生成。
  • 训练方式:给定之前所有的token,预测下一个token是什么。
  • 代表模型:GPT。

Autoencoder LM

  • 特点:自编码器语言模型通常用于denoising, 因此也叫做denosing autoencoder。该模型经过训练以最小化输入和输出之间的差异,从而学习过程中输入的压缩表示
  • 训练方式:他首先破坏输入的token,通过encoder编码到潜在空间,然后再解码(重构)到原始空间。
  • 代表模型:
    • 自编码模型往往会构建一个双向上下文的表示,因此天然适用于文本分类等任务。典型自编码模型:BERT。
    • Masked Language Model (MLM)和Next Sentence Prediction (NSP)就是最典型的自编码预训练任务。BERT在MLM上的训练,就是通过把输入进行一定的掩盖,再重建恢复原始token序列的过程。

Seq2Seq LM

  • 特点:seq2seq预言模型旨在将序列从原先domain(例如,一种语言的句子)转换到另一个domain的序列(例如,另一种语言的句子)。它也是有一个encoder和decoder组成。
  • 训练方式:编码器处理输入序列并将其压缩为上下文向量,即表示整个输入序列的单个向量。然后解码器从上下文向量生成输出序列。
  • 代表模型:Transformer, LSTM。
  • 与Autoregressive LM关系:通常Seq2Seq模型都是自回归的,特别是在解码阶段。因为它们一次生成一个token,并且利用了之前生成的token。但是不是所有的自回归模型都是Seq2seq的,自回归模型可用于 Seq2Seq 框架之外的各种环境。例如,GPT是一种自回归模型,不是 Seq2Seq 模型。它以从左到右的方式一次生成文本一个标记,但它不像 Seq2Seq 模型那样具有单独的编码和解码阶段。

模型的区别和改进

Note that the only difference between autoregressive models and autoencoding models is in the way the model is pretrained. Therefore, the same architecture can be used for both autoregressive and autoencoding models.

  • 注意:模型的区别在于它们的预训练任务,相同的模型架构可以同时用作自回归和自编码器模型。
  • UniLM,基于BERT,把三种不同的预训练任务结合在一起训练了同一个模型,从而可以使模型既可以做文本分类 (NLU),也可以做文本生成 (NLG)。
  • BART,是一个denosing autoencoder,使用bidirectional encoder与left-to-right autoregressive decoder构建模型。在预训练时,除了MLM,还用了多种不同corrupting输入文档的任务。BART也能同时用于NLU和NLG。

其他问题

  1. Autoencoder LM一定有decoder吗?如果是,为什么bert没有?
    • 在用于图像压缩或降噪等任务的传统自动编码器中,有一个清晰的编码器和解码器结构:编码器将输入压缩为潜在表示,解码器根据该表示重建输入。
    • 但是Bert有点不同,它通常被称为“用于语言建模的掩码的自动编码器”,但是它没有传统意义上的编码器。Bert通过将句子的一些词mask掉,根据非mask的词来预测mask掉的词。这是在一个步骤中完成的,“解码”在将句子压缩成稠密向量的时候同时完成的。
  2. Autoencoder LM和seq2seq LM都是encoder-decoder架构,它们的区别是什么?
    • 这两种模型的主要区别在于它们的目标以及它们处理编码和解码过程的方式。自动编码器语言模型旨在重建其输入(原始文本),而 Seq2Seq 模型旨在将其输入转换为不同的输出(例如,翻译任务,一种语言到另一种语言)。
  3. Seq2seq模型是否包含自回归和自编码模型?
    • Seq2Seq模型有时可以包含自编码和自回归模型。Seq2Seq模型的decoder通常是自回归的,它根据之前的所有token,一次生成一个token的输出序列。
    • Seq2Seq的encoder部分可以看作类似自编码器,因为它将输入压缩成密集表示,但是与自编码器LM不同的是,seq2seq的encoder目标不是重建输入,而是为生成的输出序列(通常是不同domain的)提供有用的表示。
  4. BART, T5模型类别?
    • BART 可以被视为denosing autoencoder和Seq2seq模型的组合,而 T5 是一个Seq2seq模型(同时也属于Autoregressive)。
  5. 三种类别与NLU和NLG任务的关系?
    • 自回归模型:通常用于自然语言生成(NLG)任务。但是可以利用模型的最后一层隐藏层用于类似情感分析、文本分类的NLU任务。
    • 自编码器模型:通常用于自然语言理解(NLU)任务。
    • Seq2Seq:两种任务都可以。一般需要同时进行NLU和NLG。先理解,再生成。例如,问答,机器翻译。

参考:

标签:NLP,编码器,Autoregressive,模型,LM,seq2seq,Seq2Seq,token,输入
From: https://www.cnblogs.com/mercurysun/p/17411529.html

相关文章

  • 医学AI又一突破,微软开源生物医学NLP基准:BLURB
    By超神经内容概要:微软团队发布生物医学领域NLP基准,命名为BLURB,已在arxiv.org中发布相关论文,并将其开源。关键词:生物医学 自然语言处理 基准微软的研究团队近日在arxiv.org发布了论文:《Domain-SpecificLanguageModelPretrainingforBiomedicalNaturalLanguageProce......
  • 动手学深度学习(十二) NLP循环神经网络进阶
    GRURNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系RNN:ImageNameGRU:ImageName•重置⻔有助于捕捉时间序列⾥短期的依赖关系;•更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。载入数据集importos......
  • 动手学深度学习(十) NLP 语言模型与数据集
    语言模型一段自然语言文本可以看作是一个离散时间序列,给定一个长度为的词的序列,语言模型的目标就是评估该序列是否合理,即计算该序列的概率:本节我们介绍基于统计的语言模型,主要是元语法(-gram)。在后续内容中,我们将会介绍基于神经网络的语言模型。语言模型假设序列中的每个词是依次生......
  • c# HanLP 分词,主要是为了 更好的搜索数据,便于搜索文章,对文章进行统一的分词
    c#HanLP 分词,主要是为了 更好的搜索数据,便于搜索文章,对文章进行统一的分词HanLP框架搭建IKVM是一个c#端的java虚拟机下载地址:https://sourceforge.net/projects/ikvm/files/HanLP由三部分组成,类库hanlp.jar包、模型data包、配置文件hanlp.properties主要用来,支持中文分词(N-......
  • nlp中常说的对齐-Alignment
    在大模型中,对齐(Alignment)指的是将两个不同序列中的对应元素(如单词、字符或子词)进行匹配,以便进行某些任务,例如机器翻译、文本摘要、语音识别等。在机器翻译中,对齐是指将源语言中的单词和目标语言中的单词进行匹配。例如,当翻译句子“我爱你”到法语时,源语言中的“我”、“爱......
  • NLP 中 Embedding(词嵌入) 和 Tokenizer(分词器) 分别是什么?
    NLP中Embedding(词嵌入)和Tokenizer(分词器)分别是什么?Embedding(词嵌入)和Tokenizer(分词器)是在自然语言处理中常用的两种技术,用于将文本转换为计算机可以处理的数字表示。Tokenizer(分词器)是将文本转换为单词或子词序列的过程。在自然语言处理中,文本通常是由一系列单词或子词组......
  • 击败GPT3,刷新50个SOTA!谷歌全面统一NLP范式
    文|ZenMoore编|小轶写在前面一觉醒来,迷糊之中看到一条推特:瞬间清醒!Google的YiTay(andMostafa)团队提出了一个新的策略Mixture-of-Denoisers,统一了各大预训练范式。重新思考现在的预训练精调,我们有各种各样的预训练范式:decoder-onlyorencoder-decoder,spancorrupti......
  • EMNLP 2022 最佳论文揭晓!这脑洞绝了….
    前言读文章之前,我们先来思考人工智能中一个核心而底层的问题:什么是抽象以及它能够给我们带来什么?我们这里说的“抽象”是一个认知学上的概念,著名学者ChatGPT说:“抽象是指不依赖于具体事物或实例,而是指抽取共同点或基本特征的思维过程。”在人类智能中,抽象是一个很底层很基本的......
  • NLP中数据增强
    DataAugmentationApproachesinNaturalLanguageProcessing:ASurvey数据增强方法数据增强(DataAugmentation,简称DA),是指根据现有数据,合成新数据的一类方法。毕竟数据才是真正的效果天花板,有了更多数据后可以提升效果、增强模型泛化能力、提高鲁棒性等。然而由于NLP任务天生......
  • 【NLP教程】用python调用百度AI开放平台进行情感倾向分析
    目录一、背景二、操作步骤2.1创建应用2.2获取token2.3情感倾向分析三、其他情感分析四、讲解视频一、背景Hi,大家!我是@马哥python说,一名10年程序猿。今天我来演示一下:通过百度AI开放平台,利用python调用百度接口进行中文情感倾向分析,并得出情感极性分为积极、消极还是中性以......