首页 > 其他分享 >论文阅读:Enhancing Chinese Character Representation With Lattice-Aligned Attention

论文阅读:Enhancing Chinese Character Representation With Lattice-Aligned Attention

时间:2024-07-24 13:53:46浏览次数:12  
标签:字符 Enhancing Chinese Sr Attention 单词 注意力 向量

方法:格对齐注意力网络(LAN)

旨在对词-字符格结构上的密集交互进行建模,以增强字符表示。

  • 首先,应用软词典特征策略构建词-字符格结构,然后得到了字符和词序列的固定维度表示。
  • 接着,利用格对齐注意力来显示地模拟不同特征空间之间的密集交互。
  • 最后,应用条件随机场(CRF)关系分类器来执行NLP任务的解码。

词-字符格表示

字符表示X

字符嵌入用于将离散字符映射到连续的输入向量中。其中\(x_i\)为每个字符的嵌入表示。

\[X = [x_1, x_2, x_3, ..., x_n] \]

对于RE任务,实体位置嵌入对实体分类很重要,因此引入位置嵌入。

\[x'_i = [x_i, p_i^1, p_i^2] \]

\[X = linear[x'_1, x'_2, x'_3, ..., x'_n] \]

词表示Y

问题:1)每个字符与一组匹配的单词对齐,如:桥=【长江大桥,大桥】。2)某些字符没有匹配的单词。
解决:使用软词典特征策略,选择固定维度,包含四组由“BMES”标签标记的单词集,作为每个字符\(c_i\)地对齐单词。

\(B(c_i)\) 包含所有以字符\(c_i\)开始的字典匹配单词。
\(M(c_i)\) 包含所有字符\(c_i\)出现在中间的字典匹配单词。
\(E(c_i)\) 包含所有以字符\(c_i\)结尾的字典匹配单词。
\(S(c_i)\) 是由字符\(c_i\)组成的单一字符单词。
如果某个单词集为空,则设置一个特殊的单词“none”来表示这种情况。

格对齐注意力

包含三个主要组成部分:交叉格注意力门控融合单元自晶格模块

交叉格注意力$ \tilde{X} $

  • 旨在捕获字符和单词特征表示之间的细粒度相关性。通过将X(字符表示)视为查询,将Y(词表示)视为键和值,它能够对每对字符和单词特征之间的密集交互进行建模。
  • 与原始的格子结构只能访问其自匹配的单词相比,每个字符都可以在交叉格注意力中直接与所有匹配的单词进行交互。

字-词对的门控融合F

旨在整合字符和单词特征。该单元权衡了网络从单词特征或字符特征中获取的信息量。这是通过首先计算门控向量 g ∈ Rn,然后使用它来计算 X 和 Y 的加权和结果来实现的。

\[h_c = tanh(\tilde{X}W_c+b_c) \]

\[h_w = tanh(YW_w+b_w) \]

\[g = \sigma(([h_c;h_w])W_g) \]

\[F = g\tilde{X}+(1-g)Y \]

门控向量的目的是动态调整网络应该从每种类型特征中获取多少信息。

自晶格模块\(Sr^l\)

旨在对字符级自相关进行建模,该算法以融合特征F相对位置编码P为输入。

  • 输入嵌入转化为Q, K, V:对于模型中的每个头,都有一组不同的权重矩阵\(W^Q\),\(W^K\),\(W^V\),用于生成对应的Q, K, V向量。
  • 多头注意力机制
  • 为了明确地向模块提供位置信息,使用相对位置编码方法(TENER模型),获得P[i]

计算维度d:为了便于计算,利用线性投影来转换位置嵌入维度\(d_p\)

\[d = Linear[d_p] \]

计算比例因子m:其中,b是一个参数,z是注意力头的数量,d是从上述步骤得到的维度。

\[m = \frac{2b*z}{d} \]

计算相对位置编码\(R_{t-j}\):

\[R_{t-j} = [...,sin(\frac{t-j}{10000^m}),cos(\frac{t-j}{10000^m}),...]^T \]

计算最终的位置编码\(P[i]_{t,j}\):其中,\(QW_i^Q\)是查询矩阵\(Q\)与其对应的权重\(W_i^Q\)的乘积。\(K[i]_j\)是键矩阵K的第i块中的第j行。u和v是可学习的参数。

\[P[i]_{t,j} = (QW_i^Q)R_{t-j}+uK[i]_j^T+vR_{t-j}^T \]

  • 对于每个头,计算查询向量和所有键向量的点积,得到一个注意力得分矩阵,并与位置编码\(P[i]\)进行融合。接着应用softmax函数,将分数转化为概率形式。最后,结合值向量,生成注意力头的输出。

\[head_i = softmax((QW_i^Q)K[i]^T + P[i])(VW_i^V) \]

  • 多头聚合与后续处理:每个注意力头生成一个输出,所有的输出在最后一维上进行拼接,然后通过另一个线性变换\(W^O\)来整合不同头的信息,生成最终的多头注意力层输出。

\[O = [head_1;...;head_z]W^o \]

  • 然后是残差连接 - 归一化 - 前馈神经网络

为了增加模型容量,我们将 \(l\) 层自晶格注意力操作堆叠在一起,形成一个级联架构。最后,将增强的字符表示表示为\(Sr^l ∈ R^{n*d}\),将其发送到解码层进行中文 NLP 任务中的预测

不同任务的解码和训练--Chinese RE

  • 首先采用字符级的注意力,将增强的字符表征\(Sr^l\)集成到句子表征Vh中。

\[Sr^{l'} = tanh(Sr^l) \]

\[\alpha = softmax(Sr^{l'}W_h) \]

\[V_h = \alpha Sr^l \]

  • 然后,为了计算每个关系的条件概率,将句子表示 Vh 输入到 softmax 分类器中。(T 是每种类型的估计概率。)

\[R = W_oV_h+b \]

\[Pr(T|S) = softmax(R) \]

  • 通过最小化 RE 的以下交叉熵来优化模型的参数:

\[L(\theta)=\sum\limits_{i=1}^M logPr(T^i|S^i, \theta) \]

RE数据集

  • Chinese SanWen:《A discourse-level named entity recognition and relation extraction dataset for Chinese literature text》
  • FinRE dataset:《Chinese relation extraction with multi-grained information and external linguistic knowledge》

标签:字符,Enhancing,Chinese,Sr,Attention,单词,注意力,向量
From: https://www.cnblogs.com/zinger/p/18320630

相关文章

  • Python贝叶斯、transformer自注意力机制self-attention个性化推荐模型预测课程平台学
    全文链接:https://tecdat.cn/?p=37090原文出处:拓端数据部落公众号 分析师:KungFu近年来,在线课程凭借便捷的网络变得越来越流行。为了有更好的用户体验,在线课程平台想要给用户推荐他们所感兴趣的课程,以便增大点击率和用户黏性。解决方案任务/目标根据学生所选的历史课程,预测出......
  • Muti Head Attention
    MutiHeadAttentionMutiHeadAttention#导入包importtorchfromtorchimportnnimporttorch.nn.functionalasfimportmathx=torch.rand(128,32,512)d_moule=512n_head=8fromnumpyimporttransposefromtorchimportbatch_normclassMutiHeadAttentio......
  • Transformer 模型和Attention注意力机制学习笔记
    文章目录Transformer模型结构注意力机制ScaledDot-ProductAttention缩放点注意力机制工作流程并行机制Multi-HeadAttention多头注意力机制工作流程Embedding单词Embedding位置编码PositionalEncodingEncoderAdd&NormFeedForwardNetworkDecoderMaskedMul......
  • YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10引入结合SimAM和SKAttention形成全新的SK
    1.SKAM介绍     SKAM(SimAMandSKAttentionModule)注意力机制结合了SimAM和SKAttention的优点,能够在图像特征提取中表现出更为优异的性能。     SimAM注意力机制     SimAM(SimplifiedAttentionModule)是一种简单但有效的注意力机制,旨在增强......
  • YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10引入结合EMAttention和NAMAttention形成
    1. EAMA注意力机制     EAMA注意力模块比NAMAttention和EMAttention在图像特征提取方面更强,其优势主要体现在以下几个方面:     (1).综合利用通道和空间信息:     EAMA结合了EMAttention和NAMAttention两种注意力机制,充分利用了通道和空间信......
  • Self Attention
    先前的一些文章简单介绍了一些点云检测和分割的文献资料,可以看出近些年越来越多的方法结合了Transformer,因此有必要说明一下Transformer的结构,在介绍之前需要了解一些知识点:比如SelfAttention、LayerNormalization等等,这一篇先简单了解下SelfAttention,后续再介绍其他相关内容。......
  • Bert中文预训练模型(Bert-base-chinese)
    介绍Bert-base-chinese模型是一个在简体和繁体中文文本上训练得到的预训练模型,具有以下特点:12个隐层输出768维张量12个自注意力头110M参数量该模型的主要作用是获取每个汉字的向量表示,后续通过微调可应用于各种简体和繁体中文任务。使用importtorchfromtransformersim......
  • FINCH: Enhancing Federated Learning With Hierarchical Neural Architecture Search
    背景与挑战:介绍FL联邦学习,指出两个联邦学习的缺点::::danger1.预定义的架构容易使模型训练陷入局部次优解,导致训练性能低下2.开发一个足够精确和小的模型来部署在客户端是很复杂的,这需要在迭代的试错过程中付出大量的人力:::(手动设计更高效的体系结构在很大程度上依赖于人类......
  • 大模型长度扩展:直接外推, PI, NTK-aware, NTK-by-parts, Dynamic NTK, ALiBi, YaRN, S
    目录第一部分背景知识:从进制表示谈到直接外推、线性内插、进制转换1.1从进制表示到直接外推1.1.1进制表示1.1.2直接外推1.2从线性内插到进制转换1.2.1线性内插1.2.2进制转换第二部分从RoPE、直接外推到位置内插PositionInterpolation2.1旋转位置嵌入2.1.1RoPE的快速回......
  • YOLOv10改进 | 注意力篇 | YOLOv10引入Triplet Attention注意力
    1. TripletAttention介绍1.1 摘要:由于注意机制能够在通道或空间位置之间建立相互依赖关系,因此近年来已被广泛研究并广泛应用于各种计算机视觉任务中。在本文中,我们调查重量轻,但有效的注意力机制,并提出三重注意力,一种新的方法来计算注意力的权重,通过捕获交叉维的相互作用,......