【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification

时间：2023-01-17 11:33:45浏览次数：45

·阅读摘要：
本文在已有的SGM和BERT模型上改进，提出了SGM+BERT模型、混合模型。实验证明SGM+BERT模型收敛比BERT快很多，混合模型的效果最好。
·参考文献：
[1] BERT for Sequence-to-Sequence Multi-Label Text Classification
[2] SGM模型讲解，参考博客：【多标签文本分类】SGM: Sequence Generation Model for Multi-Label Classification [3] Bert模型讲解，参考博客：【文本分类】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

本文是改进模型类型的论文，重点全在模型上，其他部分可以不看。

本文提出了SGM+BERT模型、混合模型一共两个模型。

[1] SGM+BERT模型

如下图，是论文中的SGM+BERT模型：

【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_BERT+SGM

如下图，是SGM模型：

【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_BERT+SGM_02

对比上述两个模型，可以看到，SGM+BERT模型只是在文字转词向量的时候，使用了BERT来获取文本嵌入的语言表示。其他和SGM模型是一模一样的。

论文中仅仅提到，SGM+BERT模型比SGM模型的好处在于，多标签BERT通常需要几十个epoch才能收敛，这与BERT+SGM模型不同，后者只需几百次迭代（不到半个epoch）就可以得到令人满意的结果。

SGM+BERT模型的具体流程如下：

【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_词向量_03

$【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_初始化_04$ 为空，并且有已知的所有标签 $【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_词向量_05$ 。

· 2、对该文本用BERT转化为词向量，再把词向量送入BiLSTM。

$【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_初始化_06$ ，和 $【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_文本分类_07$ 。

· 4、进入解码器的循环里面了。数据送入BiLSTM进行解码。

$【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_多标签文本分类_08$ 。这样的话，在第六步使用softmax的时候，就可以排除掉之前已经预测过的标签的干扰。

【注】：这一步叫做Mask softmax，是在SGM那篇论文里的，感兴趣可以参考【多标签文本分类】SGM: Sequence Generation Model for Multi-Label Classification

· 6、softmax预测。

$【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_BERT+SGM_09$ 中。

[2] 混合模型

首先明确，混合的是BERT模型和SGM+BERT模型。

SGM+BERT模型比BERT模型快，但是效果并不好，论文探究了把两者的输出混合的算法，实验发现效果更好。算法如下：

【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_多标签文本分类_10

$【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_多标签文本分类_11$ ，先用BERT模型，接个全连接层、softmax，直接就可以得到每个标签的概率 $【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_初始化_12$ 。

$【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_初始化_13$ ，再用SGM+BERT模型，得到了 $【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_词向量_14$ ，是解码器的n个时间步，每个时间步都能得到对L个类别的概率。

· 3、以L个标签来遍历，纵向从第2步的每个时间步中，找出最大的概率。

· 4、通过参数来把第1步和第3步的概率中和一下。

$【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification_初始化_13$ 有此标签。

【注】：这个混合模型看起来很不靠谱……

标签：BERT,Multi,Sequence,标签,模型,SGM,文本
From： https://blog.51cto.com/u_15942590/6012019

【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》
论文名称：《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》发布期刊：《山东大学学报(理学版)》期刊信息：CSCD 论文写作分析摘要：本文非常简单。网络模型是直......
bat做网络驱动时报错Multiple connections to a server or shared resource by the sa
有时会报这样的错：Themappednetworkdrivecouldnotbecreatedbecausethefollowingerrorhasoccurred:Multipleconnectionstoaserverorsharedresourcebyt......
【BERT-多标签文本分类实战】之七——训练-评估-测试与运行主程序
[1]损失函数与评价指标多标签文本分类任务，用的损失函数是BCEWithLogitsLoss，不是交叉熵损失函数cross_entropy！！BCEWithLogitsLoss与cros......
【BERT-多标签文本分类实战】之三——多标签文本分类的方向与常用数据集介绍
【注】本篇将首先介绍多标签文本分类中几个小方向，然后介绍这几个小方向对应的常用数据集。最后介绍如何自己寻找和下载数据集。[1]多标签文本分类的若干小方向目前学......
【预训练语言模型】RoBERTa: A Robustly Optimized BERT Pretraining Approach
·阅读摘要：本文在BERT模型的基础上进行了一些改进，提出了RoBERTa模型，并证明了RoBERTa比BERT的效果更好一些。·参考文献：......
【BERT-多标签文本分类实战】之四——数据集预处理
[1]数据集预处理的流程在拿到数据集之后，我们关心接下来操作的步骤： ·查看数据集的基本数据 ·分析数据集的标签构成 ·数据集拆分成训练集、验证集、测......
【BERT-多标签文本分类实战】之六——数据加载与模型代码
·请参考本系列目录：【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源：>=点击此处=< 前5篇文章中，介绍了实战项目的前置知识，下面正式介绍项......
【多任务学习】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Ge
·阅读摘要：本文提出针对CV领域的多任务模型，设置一个可以学习损失权重的损失层，可以提高模型精度。·参考文献： [1]Multi-TaskLearningUsingUncertaintytoWeig......
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
·阅读摘要：本文在BERT模型上，提出了利用多任务架构来解决层级多标签文本分类问题。·参考文献： [1]MSML-BERT模型的层级多标签文本分类方法研究[0]摘要在摘......
【多标签文本分类】Balancing Methods for Multi-label Text Classification with Lon
·阅读摘要：本文更像是对多标签文本分类的损失函数的综述，文中提到的几个损失函数（包括为了解决长尾问题的损失函数）都是前人已经提出的。·参考文献： [1]BalancingM......

【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification

[1] SGM+BERT模型

[2] 混合模型

相关文章

赞助商

阅读排行