论文阅读：Enhancing Chinese Character Representation With Lattice-Aligned Attention

标签：字符 Enhancing Chinese Sr Attention 单词注意力向量

方法：格对齐注意力网络（LAN）

旨在对词-字符格结构上的密集交互进行建模，以增强字符表示。

首先，应用软词典特征策略构建词-字符格结构，然后得到了字符和词序列的固定维度表示。
接着，利用格对齐注意力来显示地模拟不同特征空间之间的密集交互。
最后，应用条件随机场（CRF）和关系分类器来执行NLP任务的解码。

词-字符格表示

字符表示X

字符嵌入用于将离散字符映射到连续的输入向量中。其中$x_i$为每个字符的嵌入表示。

\[X = [x_1, x_2, x_3, ..., x_n] \]

对于RE任务，实体位置嵌入对实体分类很重要，因此引入位置嵌入。

\[x'_i = [x_i, p_i^1, p_i^2] \]

\[X = linear[x'_1, x'_2, x'_3, ..., x'_n] \]

词表示Y

问题：1）每个字符与一组匹配的单词对齐，如：桥=【长江大桥，大桥】。2）某些字符没有匹配的单词。
解决：使用软词典特征策略，选择固定维度，包含四组由“BMES”标签标记的单词集，作为每个字符$c_i$地对齐单词。

$B(c_i)$ 包含所有以字符$c_i$开始的字典匹配单词。
$M(c_i)$ 包含所有字符$c_i$出现在中间的字典匹配单词。
$E(c_i)$ 包含所有以字符$c_i$结尾的字典匹配单词。
$S(c_i)$ 是由字符$c_i$组成的单一字符单词。
如果某个单词集为空，则设置一个特殊的单词“none”来表示这种情况。

格对齐注意力

包含三个主要组成部分：交叉格注意力；门控融合单元；自晶格模块

交叉格注意力$ \tilde{X} $

旨在捕获字符和单词特征表示之间的细粒度相关性。通过将X（字符表示）视为查询，将Y（词表示）视为键和值，它能够对每对字符和单词特征之间的密集交互进行建模。
与原始的格子结构只能访问其自匹配的单词相比，每个字符都可以在交叉格注意力中直接与所有匹配的单词进行交互。

字-词对的门控融合F

旨在整合字符和单词特征。该单元权衡了网络从单词特征或字符特征中获取的信息量。这是通过首先计算门控向量 g ∈ Rn，然后使用它来计算 X 和 Y 的加权和结果来实现的。

\[h_c = tanh(\tilde{X}W_c+b_c) \]

\[h_w = tanh(YW_w+b_w) \]

\[g = \sigma(([h_c;h_w])W_g) \]

\[F = g\tilde{X}+(1-g)Y \]

门控向量的目的是动态调整网络应该从每种类型特征中获取多少信息。

自晶格模块$Sr^l$

旨在对字符级自相关进行建模，该算法以融合特征F和相对位置编码P为输入。

输入嵌入转化为Q, K, V：对于模型中的每个头，都有一组不同的权重矩阵$W^Q$,$W^K$,$W^V$，用于生成对应的Q, K, V向量。

多头注意力机制：

为了明确地向模块提供位置信息，使用相对位置编码方法(TENER模型)，获得P[i]

计算维度d：为了便于计算，利用线性投影来转换位置嵌入维度$d_p$

\[d = Linear[d_p] \]

计算比例因子m：其中，b是一个参数，z是注意力头的数量，d是从上述步骤得到的维度。

\[m = \frac{2b*z}{d} \]

计算相对位置编码$R_{t-j}$：

\[R_{t-j} = [...,sin(\frac{t-j}{10000^m}),cos(\frac{t-j}{10000^m}),...]^T \]

计算最终的位置编码$P[i]_{t,j}$：其中，$QW_i^Q$是查询矩阵$Q$与其对应的权重$W_i^Q$的乘积。$K[i]_j$是键矩阵K的第i块中的第j行。u和v是可学习的参数。

\[P[i]_{t,j} = (QW_i^Q)R_{t-j}+uK[i]_j^T+vR_{t-j}^T \]

对于每个头，计算查询向量和所有键向量的点积，得到一个注意力得分矩阵，并与位置编码$P[i]$进行融合。接着应用softmax函数，将分数转化为概率形式。最后，结合值向量，生成注意力头的输出。

\[head_i = softmax((QW_i^Q)K[i]^T + P[i])(VW_i^V) \]

多头聚合与后续处理：每个注意力头生成一个输出，所有的输出在最后一维上进行拼接，然后通过另一个线性变换$W^O$来整合不同头的信息，生成最终的多头注意力层输出。

\[O = [head_1;...;head_z]W^o \]

然后是残差连接 - 归一化 - 前馈神经网络

为了增加模型容量，我们将 $l$ 层自晶格注意力操作堆叠在一起，形成一个级联架构。最后，将增强的字符表示表示为$Sr^l ∈ R^{n*d}$，将其发送到解码层进行中文 NLP 任务中的预测

不同任务的解码和训练--Chinese RE

首先采用字符级的注意力，将增强的字符表征$Sr^l$集成到句子表征Vh中。

\[Sr^{l'} = tanh(Sr^l) \]

\[\alpha = softmax(Sr^{l'}W_h) \]

\[V_h = \alpha Sr^l \]

然后，为了计算每个关系的条件概率，将句子表示 Vh 输入到 softmax 分类器中。（T 是每种类型的估计概率。）

\[R = W_oV_h+b \]

\[Pr(T|S) = softmax(R) \]

通过最小化 RE 的以下交叉熵来优化模型的参数：

\[L(\theta)=\sum\limits_{i=1}^M logPr(T^i|S^i, \theta) \]

RE数据集

Chinese SanWen：《A discourse-level named entity recognition and relation extraction dataset for Chinese literature text》
FinRE dataset：《Chinese relation extraction with multi-grained information and external linguistic knowledge》

标签：字符,Enhancing,Chinese,Sr,Attention,单词,注意力,向量
From： https://www.cnblogs.com/zinger/p/18320630