模型框架
包含一个BERT模型层
(嵌入+编码+池化->得到句子的特征向量)、一个Dropout层
(防止过拟合)。
基于BERT的预训练模型
BERT模型是通过注意力机制
对训练集进行处理。然后,通过Embedding层
和Encoder层
加载预训练的词向量。 最后,Pooling 层
使用 BERT 模型来训练两个句子。
BERT嵌入层
输入层中,输入数据首先通过BERT嵌入部分,将每个单词转换为\(embedding_{word}\)、\(embedding_{position}\)和\(embedding_{token_type}\)。
\[E = embedding_{word} + embedding_{position} + embedding_{token_type}. \]实体对位置嵌入:在使用令牌级别特征提取句子后,实体对以矩阵的形式嵌入了位置信息。(对角线为位置信息的单位矩阵)
然后,将句子的特征向量矩阵
与新生成的实体对位置矩阵
相乘,就可以得到带有实体对位置信息的句子特征向量。
BERT编码层
BERT使用Transformer Encoder作为语言模型,Transformer模型采用Attention机制
来计算输入和输出之间的关系。(Q、K、V)
BERT池化层
这是一个激活函数,它执行线性处理并使用 Tanh() 来池化 BERT 编码器的输出:
\[P = MA_{pool}^T + b_{pool} \]\[W_{token} = tanh(P) = \frac{e^P - e^{-P}}{e^P + e^{-P}} \]Dropout层
然后进行dropout - layerNorm - ReLU -线性操作。
数据集
一种面向中国文学文本的话语级命名实体识别与关系抽取数据集:Xu J, Wen J, Sun X, et al. A discourse-level named entity recognition and relation extraction dataset for chinese literature text[J]. arXiv preprint arXiv:1711.07010, 2017.
Hou J, Li X, Yao H, et al. BERT-based Chinese relation extraction for public security[J]. IEEE Access, 2020, 8: 132367-132375.
标签:BERT,嵌入,Based,特征向量,Chinese,模型,embedding,句子 From: https://www.cnblogs.com/zinger/p/18329501