模型主要结构:用BERT进行编码,之后分别送入两个GRU网络进行特征学习,在这个过程中进行浅层交互,也就是情感分析第l层的表示不仅来自情感分析第l-1层的输出,同时也来自于方面检测第l-1层的输出。之后获取方面提取的概率分布和情感分析的概率分布,利用KL散度使两个概率分布接近,进行深层交互,之后分别预测两个任务的标签。
摘要
如果给出具体的方面,就可以更好地理解感伤的表达。相比之下,如果我们知道情感表达的位置,则可以更好地检测方面。提出了一种新的层次交互网络(HIN)来增强方面提取和情感分类之间的内在联系。HIN跨两层分层地联合学习方面提取器和情感分类器。前者进行一些浅层交互,后者通过互信息最大化技术学习两个子任务之间的深层交互。
目前方面提取和情感分析并没有做到啊很好的交互,一方面,如果给予所需的方面,情感词可以更好地理解。例如,“硬盘容量大”。和“电脑太大,无法携带”。,情感词“大”表示对“硬盘”的积极情感,但对“计算机”的消极情感。上面的例子实际上表明,合并方面信息有助于情感分类。另一方面,由于情感表达通常接近于方面,潜在的情感信息可能为检测方面边界提供有价值的信号。例如,如果“delicious”一词出现在餐厅评论中,带有强烈的积极情绪,那么很可能与食物有关。因此,合并情感信息也有助于方面检测。
HIN以分层的方式联合学习方面提取器和情感分类器。具体来说,HIN首先学习编码层的交互,然后学习任务层的交互。这两种策略共同增强了两个子任务之间的相关性,因此可以联合训练以实现卓越的全局优化。更具体地说,HIN通过十字绣机制学习编码层中的浅层交互,通过相互信息最大化学习两个子任务之间的深层交互。
2相关工作
然而,很明显,这两个子任务是内在相关的,并且可能相互影响。这种单独的过程可能会受到误差传播的影响,这可能会降低ABSA的有效性。因此,联合解决这两个子任务成为该研究领域的主流趋势。该领域以往的研究大致可分为两类:基于标记的模型和基于范围的模型。
基于序列标记的模型取得了很大的成功,虽然上述模型取得了很多成功,但将整个方面的情感分散到其中的每个单词上,基本上放松了情感一致性的约束,增加了情感的模糊性
随着其他自然语言处理(NLP)任务中基于广度的模型的兴起,例如语义角色标记[36,37]、关系提取[38-40]和机器理解[41,42],近年来,基于广度模型在基于方面的情感分析中出现了新的趋势,其中方面是根据其边界分布检测的,并且根据边界之间的所有单词预测情绪。例如,[20]提出了一种先提取后分类的框架,该框架使用启发式解码算法提取方面,然后相应地对情感进行分类。具体来说,作者设计了以下三种方法来解决问题,即管道和接头模型。
尽管取得了改进的结果,但在现有的基于跨度的模型中,方面提取和情感分类之间的明确关系很少被注意到。具体来说,前面的方法仅通过共享一些参数来建模两个子任务之间的交互。这些方法遵循隐式交互策略。因此,这些任务之间的相关性没有得到充分的研究。在这项工作中,我们设计了一个新的模型来缓解这个问题,从而朝着更合理的基于广度的方面情感分析迈出了一步。
3模型方法
3.2嵌入层
采用Bert进行编码
3.3浅层交互层
方面提取和情感分类的问题可能具有一些特定于任务的特征。例如,基于span-based的方面提取是一项基于标记级别的二元分类任务,更侧重于一些实体名词。然而,情感分类是一项基于跨级词的多分类任务,情感形容词更为重要。根据上述考虑,我们进一步将RNN堆叠在不同任务的B上。门控递归单元(GRU)被设计用于缓解反向传播中的长期记忆和梯度问题,它比标准RNN更容易训练,并且可以获得很好的结果。因此,递归模型基于GRU实现。输入GRU模型后,方面提取和情感分类的输出分别表示为hat和hst。
最近的工作[22]表明,两个任务之间存在一些共享信息(例如语义和句法信息)和私人信息(例如名词和代词),这两种类型的信息对两个任务都至关重要。因此,为了区分和利用共享信息和私有信息,我们借用十字绣机制的思想设计了一种浅层交互策略[46]。具体来说,情感预测中的l层的输出不仅来自l-1层的信息,还来自方面提取中的l-1层输出,反之亦然。
因此,为了区分和利用共享信息和私有信息,我们借用十字绣机制的思想设计了一种浅层交互策略[46]。具体来说,情感预测中的l层的输出不仅来自l-1层的信息,还来自方面提取中的l-1层输出,反之亦然。为此,我们学习线性组合ha-t和hs-t,并将这些组合作为下一层的输入。我们支持跨任务的双重知识转移,并让他们相互受益。因此,一个任务仍然可以通过交叉连接单元从另一个任务学习良好的表示,尽管一个任务的表示不充分。计算如下:
3.4深层交互层
在以前的模型中,除了通过共享编码器中的参数外,方面提取和情感分类是单独训练的,这忽略了两个子任务的固有属性。事实上,方面提取与情感分类密切相关。一方面,如果给出具体的方面,情感表达可以更好地理解。另一方面,一个情绪词可能暗示一个方面的位置。因此,我们提出了一种基于互信息最大化的深层交互策略。具体来说,该策略联合学习情感分类器和方面边界检测器,利用方面提取和情感分类的表征级分数来促进每个任务的学习。我们将详细解释如何获得这两个任务的分布。
3.4.1方面提取中的边界预测(不明白)
3.4.2情感分类中的词语注意力
利用注意力机制进行情感分类
3.4.3交互信息最大化
在本节中,我们提出了一种基于互信息最大化的深层交互策略。关键思想是学习方面提取和情感分类之间的相似表示。为了更好地理解我们提出的方法,我们在图2中给出了直观的解释。我们发现,在应用相互学习技术后,方面分布E和注意力分布A都得到了改善,例如,方面词“7”和情感词“爱”。有两个好处:(1)在分类器的训练中加入方面信息可以提高预测性能。(2) 利用单词级极性信息可以潜在地告诉方面分布。
实际上,我们认为每个网络(即方面边界抽取器和情感分类器)在开始时都采用随机初始化,每个令牌的概率估计几乎均匀分布,增加了监督损失,减少了训练初始阶段的交互损失。每个网络主要由其自身的监督损失函数(等式(11)和(13))指导,因此网络的性能可以逐步提高。随着模型参数的更新,每个网络在自己的学习过程中获得不同的知识,并且每个网络对令牌的概率估计也会不同。在这种情况下,交互损失函数开始促进网络的相互参考学习。
在获得了方面分布E(在公式(6)中)和情感-注意分布A(在方程(9)中)后,我们需要在训练期间最大化两个分布之间的相似性。为了使这两种分布具有可比性,我们将它们的维数设置为一致的。直观的想法是使用Kullback-Leibler(KL)散度来测量分布之间的距离。然而,由于这两个任务之间的相关性是双向的,我们使用Jenson–Shannon(JS)散度定义了以下相似性度量指标,即KL散度的平均值:
标签:SCI2022,分类,提取,方面,情感,分层,任务,交互 From: https://www.cnblogs.com/zhang12345/p/16805781.html