【NLP预训练模型】你finetune BERT的姿势可能不对哦？

时间：2022-10-12 21:00:35浏览次数：61

标签：NLP 训练 BERT 步骤 Finetune Adam 优化 finetune

预训练模型BERT是NLP领域如今最大的网红，BERT的预训练过程学习了大量的自然语言中词、句法以及常识等泛领域的知识。因此，在运用BERT到实际的NLP任务中，通常的做法都是基于特定领域内的少量数据（几千到几万）集，再进行Finetune，以适用于当前的任务和领域。

通常来说，基于BERT进行Finetune效果都会还不错。但是如果你的数据集相对小的时候，你有可能会遇到一些麻烦。本篇基于论文《Revisiting Few-sample BERT Fine-tuning》深入看一下BERT的预训练过程，试着深入分析这一过程，用于指导Finetune的工作。

作者&编辑 | 小Dream哥

1 BERT及其预训练

BERT是一个基于transformer encoder的大型双向模型，基于海量的文本进行预训练，训练的任务包括MLM和NSP。

【NLP预训练模型】你finetune BERT的姿势可能不对哦？_词向量

笔者前面有详细介绍BERT的文章，忘记的同学可以先点击了解：

【NLP】深入浅出解析BERT原理及其表征的内容

在论文《Revisiting Few-sample BERT Fine-tuning》中，论文作者细致的发现了BERT在预训练时，在更新参数时做了一些"小动作"，如下图：

【NLP预训练模型】你finetune BERT的姿势可能不对哦？_结构化_02

BERT在预训练时，省略了标准Adam优化器优化过程中的第9和第10步。步骤9和步骤10分别是对步骤7和步骤8中一阶动量和二阶动量的有偏估计的纠正（bias-corrected）。关于为什么步骤7和步骤8中的一阶动量和二阶动量为什么是有偏的，感兴趣的读者可以翻看原文去了解，这里不做繁琐的推演了。

需要说明的是，为什么BERT在预训练时要省略和可以省略这两部呢？笔者猜测，google省略优化步骤主要原因应该是为了提速，毕竟预训练过程的数据量如此之大，BERT又是如此的庞大。那么为什么能做这样的省略呢，笔者猜测，是因为BERT在预训练是用的训练数据集非常之大，数据集的分布已经非常接近于实际的样本分布，因此可以省略上述步骤。

2 BERT的小样本Finetune

如我们上一节讨论的，BERT的预训练过程用的Adam优化器是非标的，可以称为BERT_Adam。然后论文作者发现，如今产业界和学术界大部分的开源BERT库的Adam优化器都是基于这个版本。

【NLP预训练模型】你finetune BERT的姿势可能不对哦？_词向量_03

作者认为，BERT_Adam会造成Finetune时的不稳定（insstability）。

【NLP预训练模型】你finetune BERT的姿势可能不对哦？_结构化_04

论文作者做实验发现，在小样本Finetune时，将BERT_Adam换成Adam确实会有更好的效果。笔者用自己的2000左右的数据集，做分类任务，确实也复现到了同样的现象。至此，我们发现了BERT在预训练时一个不小的坑，在小样本Finetune时，需要换回标准Adam优化器，因为小样本需要对一阶动量和二阶动量做bias-correction。

笔者看了下tensorflow和keras的Adam优化器实现，确实是BERT_Adam的实现：

【NLP预训练模型】你finetune BERT的姿势可能不对哦？_聊天机器人_05

所以，坑我们已经找到了，后续大家在bert Finetune时，最好能够自己重写一下Adam优化器，将其规范为标准的Adam优化器，或者直接用一些标准的开源库。

总结

基于BERT的预训练权重进行Finetune，是NLP领域目前最流行和高效的手段。本文介绍了预训练过程中会出现的一个大坑，即大部分开源的Adam优化器都是非标准的，并介绍了解决的方案。

下期预告：ACL论文领读系列

标签：NLP,训练,BERT,步骤,Finetune,Adam,优化,finetune
From： https://blog.51cto.com/u_14122493/5751555

【每周NLP论文推荐】介绍语义匹配中的经典文章
欢迎来到《每周NLP论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。语义匹配也是NLP中比较基础的......
【每周NLP论文推荐】 NLP中命名实体识别从机器学习到深度学习的代表性研究
NER是自然语言处理中相对比较基础的任务，但却是非常重要的任务。在NLP中，大部分的任务都需要NER的能力，例如，聊天机器人中，需要NER来提取实体完成对用户输入的理解；在信息提取任务......
【每周NLP论文推荐】掌握实体关系抽取必读的文章
欢迎来到《每周NLP论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。实体关系抽取作为信息抽取领......
【自然语言处理（NLP）】基于LSTM的命名实体识别
【自然语言处理（NLP）】基于LSTM的命名实体识别作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实践......
【自然语言处理（NLP）】基于LSTM的命名实体识别(进阶)
【自然语言处理（NLP）】基于LSTM的命名实体识别(进阶)作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产......
【自然语言处理（NLP）】基于BiLSTM+CRF的事件抽取
【自然语言处理（NLP）】基于BiLSTM+CRF的事件抽取作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实......
PaddleNLP基于ERNIR3.0文本分类：WOS数据集为例（层次分类）
相关项目链接：Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案）应用实践......
PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例【多分类(
相关项目链接：Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案）应用实......
【自然语言处理（NLP）】基于PaddleHub的文本审核
【自然语言处理（NLP）】基于PaddleHub的文本审核作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实践......
NLP之基于Seq2Seq和注意力机制的句子翻译
Seq2Seq(Attention)@目录Seq2Seq(Attention)1.理论1.1机器翻译1.1.1模型输出结果处理1.1.2BLEU得分1.2注意力模型1.2.1Attention模型1.2.2Seq2Seq(Attention)模型结......

【NLP预训练模型】你finetune BERT的姿势可能不对哦？

相关文章

赞助商

阅读排行