一、摘要
今天我们来看一下NLP领域划时代的模型——Bert,来自论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。模型的架构上,Bert采用了多层的Transformer模型编码器堆叠,而作者所提出的MLM和NSP预训练任务则为这个模型提供了强大的文本表示能力。当时,Bert模型在十几项NLP任务中都实现了SOTA,着实强得离谱。
摘要译文:
我们引入一种名为 BERT(即来自 Transformer 的双向编码器表示)的新型语言表征模型。与近期的语言表征模型不同,BERT 旨在通过在所有层中同时依据左右上下文来从未标记文本预训练深度双向表征。因此,预训练的 BERT 模型只需额外添加一个输出层进行微调,即可为众多任务(如问答和语言推理)创建最先进的模型,而无需对特定任务架构进行大量修改。BERT 概念简洁且实证效果强大。它在十一项自然语言处理任务上取得了新的最先进成果,包括将 GLUE 分数提升至 80.5%(绝对提升 7.7 个百分点)、MultiNLI 准确率提升至 86.7%(绝对提升 4.6 个百分点)、SQuAD v1.1 问答测试 F1 值提升至 93.2(绝对提升 1.5 分)以及 SQuAD v2.0 测试 F1 值提升至 83.1(绝对提升 5.1 分)。
二、模型架构
1、模型输入(面试常见知识点)
为了使 BERT 能够处理各种下游任务,作者设计的输入embeddings能够在一个Token序列中明确表示单个句子或者一对句子(例如,[问题,答案])。这里我们拆解一下Bert输入的三种embeddings:
首先,每个输入序列的第一个Token始终是一个特殊的分类标记([CLS]),这个标记位置最终得到的embeddings可以用来作为整个文本序列的文本表示。
其次,作者使用了具有 3万多个WordPiece的词汇表,用于为每个Token分配一个在词汇表中唯一的索引,得到当前序列的Token Embeddings。此外,为了应对超出词汇表(Out of Vocabulary,OOV)的情况,作者还提供了一个[UNK]标记(Unknown),用于表示所有未在词汇表中出现的Token。
再次,为了区分句子对,作者同样用一个特殊标记([SEP])将句子对隔开,而序列的末尾也加上这个[SEP]标记,无论是单个句子还是句子对,SEP标记都存在,由此得到Segment Embeddings。Segment Embeddings中,属于单句或者句子对中的前一句的Token位置都为0,如果是句子对的后一句则每个Token对应位置都是1。
最后,为了让模型能够学到序列中的顺序信息,Bert同样引入了Position Embeddings,只是这里的PE是可训练的,与Transformer模型中的实现方式不同(具体的区别可以单独写一篇长文,这里就先省略了)。
2、Masked Language Model(面试常见知识点)
作者指出深度双向模型肯定比从左到右的模型或从左到右与从右到左模型的浅层拼接更强大。因此,为了训练深度双向表征,作者随机遮蔽(Mask)一定比例的输入Token,然后预测这些被遮蔽的Token,这就是Masked Language Model任务(MLM),简单来说就是完形填空。这也是为什么Bert是双向语言模型的原因,因为模型在预测Token的过程中可以看到下文的信息。在MLM中,作者随机遮蔽每个序列中15%的Token,且模型只预测被遮蔽的单词而非重构整个输入。
尽管这能够获得双向的预训练模型,但不利之处在于预训练和微调之间的不匹配,因为[MASK]标记在微调期间不会出现。为缓解此问题,作者设计了三种策略。对于被选中用于遮蔽的15%的Token,如果当前Token被选中,则(1)80% 的情况下用 [MASK] 标记替换这个Token;(2)10% 的情况下用随机Token替换;(3)10% 的情况下保留当前Token不变。
3、Next Sentence Prediction(面试常见知识点)
许多重要的下游任务,比如问答(QA)和自然语言推理(NLI),都是基于对两个句子之间关系的理解,而这一点并不能通过语言建模直接获取。为了训练一个能够理解句子关系的模型,作者针对一个二值化的Next Sentence Prediction(NSP)任务进行预训练(其实就是二分类任务),该任务的训练数据可以从任何单语语料库中生成。
具体来说,在为每个预训练样本选择句子 A 和句子 B 时,50% 的情况下,B 是 A 之后实际的下一句(标记为 “IsNext”),而另外 50% 的情况下,B 是语料库中的一个随机句子(标记为 “NotNext”)。作者在论文中也证明了NSP任务的确能够提升Bert模型的性能,不过后来有学者进行深度实验发现,NSP任务对Bert的影响远不及MLM,这也是为什么后来的一些预训练模型直接抛弃了NSP预训练任务的缘故。
三、总结
基于多层双向 Transformer 编码器的 BERT 模型克服了传统单向语言模型的局限。通过MLM和NSP任务预训练,模型能够在进行文本表示的过程中保留更多的语义信息,这也使得基于Bert的NLP任务能够取得一系列突破性进展。
标签:Bert,模型,什么,论文,Token,BERT,句子,标记 From: https://blog.csdn.net/ChaneMo/article/details/144478185