[2] Bert 论文精读

时间：2023-02-23 21:49:48浏览次数：37

BERT是NLP领域让预训练这件事情出圈的工作。

开篇Introduction介绍了两类主流的预训练方法：

　　1、feature-based，即基于特征的，即我首先通过预训练得到一些比较好的特征，然后将这些特征作为额外的训练数据输入到模型中，从而使得模型在训练起来变得容易很多；

　　2、fine-tuning，即基于微调的。即我首先用其他数据集做预训练，训练好之后，我再去用我所需要的针对我的任务的数据集做微调，对我的模型的权重做一些小改动。

这两种方法都有一种局限性，即二者都是单向的模型，而Bert不是，正如其名字：Bidirectional Encoder Representations from Transformers

这个idea的主要来源很明确：我们平时处理NLP问题的模型都是单向的，但是虽然我们读一句话的时候总是从左到右这么读下来，但是在做一些其他任务的时候比如阅读理解、Q&A等等问题的时候，我们总会看完整个句子的全貌从而去理解这个句子的文本语义，因此如果能够让模型也做到这一点，效果会不会更好呢？

在conclusion写了，作者其实是把ELM0和GPT的idea拼接在一起，说得简单一些，就是用ELMo的双向，用Transformer实现。但具体到BERT这篇工作，我觉得还有一个更出众的点子在于《完形填空》。

Bert是一个微调模型，即先预训练，然后微调。

整体上来看，首先用一组没有label的数据做预训练，然后用有标号的对应下游任务的数据集去做微调。

其实说到底，Bert就是一个Transformer，只不过分成了预训练和微调。

另外注意一下Bert的Embedding是三个：

在做完形填空的时候，Bert用了概率mask的trick。因为他们发现直接mask掉15%的数据存在很多问题，因此选择了另外20%特殊的点。其中，10%为随机替换一个词，我觉得可以理解成噪音；另外10%就是将答案暴露出来，用答案预测答案，算是对mask的一种补偿。

而在做句子连贯性预测的时候，则50%为连贯的一组句子，50%为不连贯。

此外，他还有一个小trick，即Wordpiece，将一些比较长的单词切开。因为长单词往往有多重含义的词根，这些词根组合在一起可以表示一个新的完整的意思，但是这种长单词大部分都出现频率都不是很高，因此将这些内容切开，可以更好地让模型学习到一句话中的语义碎片。比如将homeless拆分成home与less。

然后我发现，作为一篇深度学习的文章，作为一个深度学习模型，Bert竟然没有整体的模型架构！！这真的是我第一次见。

当然了，作者对于这个操作也解释了，“我们基本上是直接把Transformer源码拿过来用了，因此我们也没必要详细再讲一次。”

这个是很值得思考的，作者没有提出新的架构，这确实是一个缝合的文章，但是他却有5w的引用。

Bert更大的特点，我觉得是证明了一点，用更大的数据集训练更大的模型会更好，但其实这个东西早就被证实了。另外就是预训练和微调的理念在NLP的出圈。

标签：Bert,Transformer,精读,训练,模型,微调,论文,句子
From： https://www.cnblogs.com/loveandninenine/p/17149166.html

【人脸检测】(MTCNN) Joint Face Detection and Alignment using Multi-task Cascaded
原始题目JointFaceDetectionandAlignmentusingMulti-taskCascadedConvolutionalNetworks中文名称基于多任务级联卷积网络的联合人脸检测与对齐......
微软FASTER KV存储论文
简介这篇论文介绍了一个新的键值存储系统，名为Faster，它支持点读、更新和读-改-写操作。Faster将一个高度缓存优化的并发哈希索引与一个混合日志结合起来：一个跨越主内存和存......
【论文阅读】IROS2022: Dynamics-Aware Spatiotemporal Occupancy Prediction in Urba
0.参考与前言完整题目：Dynamics-AwareSpatiotemporalOccupancyPredictioninUrbanEnvironments论文链接：https://arxiv.org/abs/2209.13172代码链接：无缩写：occupanc......
经典论文阅读笔记——VIT、Swin Transformer、MAE、CILP
以下（以上）内容来自(参考): https://blog.csdn.net/gailj/article/details/123664828 经典论文——VIT、SwinTransformer、MAE、CILP 针对视觉Transformer方面的工......
DIVFusion_ Darkness-free infrared and visible image fusion 论文解读
研究背景：当前图像融合方法都是针对正常照明的红外与可见光图像设计的，无法有效处理夜景下的情况。而针对夜景下的融合可以分为以下两个步骤，1可见光图像增强，2可......
Backbone 网络-ResNet 论文解读
摘要残差网络(ResNet)的提出是为了解决深度神经网络的“退化”（优化）问题。有论文指出，神经网络越来越深的时候，反传回来的梯度之间的相关性会越来越差，最后接近白噪声。即更......
RoBERTa 和 ALBERT
BERT模型是2018年提出的，并在很多自然语言处理任务有前所未有的提升。因此2019年就有很多工作是围绕着BERT展开的，其中出现了两个BERT的改进版模型，RoBERTa和ALB......
图解论文《The Part-Time Parliament》
本文以图文并茂的方式重新演绎Paxos开山之作《ThePart-TimeParliament》[1]，并尝试解释原论文中语焉不详的地方。背景在Paxos小岛上，施行着一种Parliament(议会)......
【论文阅读】SCRFD: Sample and Computation 重分配的高效人脸检测
原始题目SampleandComputationRedistributionforEfficientFaceDetection中文名称采样和计算重分配的高效人脸检测发表时间2021年5月10日平台IC......
bert 的输出格式详解
输出是一个元组类型的数据，包含四部分，lasthiddenstateshape是(batch_size,sequence_length,hidden_size)，hidden_size=768,它是模型最后一层的隐藏状态pooler_output......

[2] Bert 论文精读

相关文章

赞助商

阅读排行